반응형 ApacheHudi1 실시간 업데이트가 가능한 데이터 레이크하우스의 표준, Apache Hudi 분석 Ⅰ. Apache Hudi 기술이란? 전통적인 데이터 레이크(HDFS, S3 등 객체 스토리지)는 Parquet, ORC와 같은 컬럼형 파일을 단순히 쌓아두는 구조로 설계되었습니다.이러한 구조는 대규모 배치 분석에는 강하지만, 다음과 같은 명확한 한계를 가지고 있습니다. ⅰ. Update / Delete 의 어려움 → 한 건의 행을 수정하려면 파일 전체를 다시 써야 함 (Immutable File System) ⅱ. 실시간성 부재 → 변경 데이터(CDC)를 반영하려면 매번 전체 테이블을 재작성해야 함 ⅲ. 트랜잭션 부재 → 동시에 쓰기/읽기가 일어나면 데이터 정합성을 보장할 수 없음 ⅳ. 작은 파일 문제(Small File Problem) → 스트리밍 적재 시 수많은 작은 파일이 생성되어 쿼리 성능 저하.. 2026. 5. 13. 이전 1 다음 반응형