Ⅰ. 데이터 늪(Data Swamp) 등장배경 데이터 레이크(Data Lake)는 본래 매우 이상적인 개념에서 출발했습니다. 정형·비정형 데이터를 가공하지 않은 원형 그대로 한곳에 모아두고, 필요할 때 자유롭게 분석에 활용하자는 발상이었습니다. 이 개념은 2010년경, 펜타호(Pentaho)의 CTO였던 제임스 딕슨(James Dixon)에 의해 처음 소개되었습니다. 문제는 시간이 지나면서 발생했습니다. 많은 조직이 “일단 모아두면 언젠가는 쓰겠지”라는 생각으로 데이터를 무분별하게 적재했지만, 관리와 규칙은 함께 가져가지 않았기 때문입니다. 메타데이터 관리, 품질 기준, 접근 통제 같은 기본적인 운영 체계가 빠진 채 데이터만 쌓이자, 레이크는 점점 활용하기 어려운 공간이 되었습니다. 이렇게 찾기 어렵고..