본문 바로가기

bigdata4

Iceberg·Hudi·Delta 분열을 끝낸 메타데이터 변환기, Apache XTable Ⅰ. XTable 기술이란?레이크하우스를 1년쯤 굴리면 거의 모든 팀이 같은 결정에 부딪힙니다. "우리는 Iceberg로 갈까, Hudi로 갈까, Delta로 갈까?" 한 포맷을 고르면 어떤 엔진이 손해 봅니다. 현실은 다음과 같습니다. 엔진 선호 포맷 현실적인 결과 Snowflake / BigQuery / TrinoApache Iceberg 1급분석·쿼리 엔진은 거의 Iceberg로 수렴Databricks / Spark PhotonDelta Lake 1급ETL·ML 파이프라인은 Delta가 최상Flink / 실시간 CDCApache Hudi 1급스트리밍 UPSERT·인덱스는 Hudi가 가장 성숙같은 데이터를 모두에서3중 복제 / dual-write스토리지 3배, 일관성 깨짐, 새벽 호출그래서 팀들은 .. 2026. 6. 29.

왜 PrestoSQL이 Trino가 되었을까? 특징부터 기본 실행까지 총 정리 Ⅰ. Trino 란? Trino (구 PrestoSQL) 는 페이스북에서 개발한 오픈소스 분산 SQL 쿼리 엔진입니다. 핵심 철학은 단 하나 데이터를 옮기지 않고 그 자리에서 바로 쿼리한다는 것입니다. S3, HDFS, MySQL, PostgreSQL, Kafka, Hive 등 어떤 저장소에 있든 표준 SQL로 즉시 분석할 수 있습니다. 이를 Federated Query(연합 쿼리)라고 부릅니다. ETL로 데이터를 한 곳에 모으는 기존 방식과 달리, Trino는 여러 데이터 소스를 하나의 SQL 문으로 동시에 JOIN할 수 있습니다. 기존 방식(ETL 파이프라인) Trino 방식 (Federated Query)데이터를 중앙으로 이동 후 분석데이터 이동 없이 원본에서 직접 쿼리이동 시간 + 스토리지 비용 .. 2026. 4. 30.

초고속 분산 처리 엔진 Apache Spark에 대해 알아보겠습니다. Ⅰ. Apache Spark 란? 대규모 데이터를 메모리(In-Memory) 위에서 처리하는 오픈소스 통합 분산 분석 엔진입니다. 하둡 맵리듀스가 매 단계마다 디스크에 결과를 쓰는 방식인 반면, Spark는 중간 데이터를 RAM에 유지하여 반복 연산 속도를 비약적으로 높입니다. 기존 방식(Hadoop MapReduce) Spark 방식(Apache Spark)매 단계 디스크 I/O 발생In-Memory 처리, 최대 100배 빠름배치 처리 전용배치·스트리밍·ML·그래프 통합Java 단일 언어Python, Scala, Java, R, SQL높은 지연 시간낮은 지연, 실시간 대응 더 이상 단순한 배치 처리 도구가 아닙니다. 하나의 엔진으로 ETL, 실시간 스트리밍, 머신러닝, 그래프 분석을 모두 처리하는 올.. 2026. 4. 28.

데이터 늪(Data Swamp)에 대해 알아보겠습니다. Ⅰ. 데이터 늪(Data Swamp) 등장배경 데이터 레이크(Data Lake)는 본래 매우 이상적인 개념에서 출발했습니다. 정형·비정형 데이터를 가공하지 않은 원형 그대로 한곳에 모아두고, 필요할 때 자유롭게 분석에 활용하자는 발상이었습니다. 이 개념은 2010년경, 펜타호(Pentaho)의 CTO였던 제임스 딕슨(James Dixon)에 의해 처음 소개되었습니다. 문제는 시간이 지나면서 발생했습니다. 많은 조직이 “일단 모아두면 언젠가는 쓰겠지”라는 생각으로 데이터를 무분별하게 적재했지만, 관리와 규칙은 함께 가져가지 않았기 때문입니다. 메타데이터 관리, 품질 기준, 접근 통제 같은 기본적인 운영 체계가 빠진 채 데이터만 쌓이자, 레이크는 점점 활용하기 어려운 공간이 되었습니다. 이렇게 찾기 어렵고.. 2026. 1. 13.

이전 1 다음

티스토리툴바