빅데이터(Big Data)

빅데이터 모델링에 대해 알아보겠습니다.

forward error correction Circle 2025. 8. 21. 08:23
반응형

Ⅰ. 빅데이터 모델링이란?

  대규모 데이터를 수집 → 저장 → 처리 → 분석할 때 요구되는 데이터 구조(스키마), 분산 처리 아키텍처, 인덱싱 전략 등을 설계하는 활동이며, 일반 데이터베이스 모델링(OLTP)과 달리, 실시간성·확장성·고가용성을 모두 고려해야 합니다.

Ⅱ. 빅데이터 모델링 목적

 ⅰ. 성능 최적화: 적절한 파티셔닝, 인덱스 설계로 쿼리 응답 속도를 개선
 ⅱ. 비용 절감: 데이터 중복 최소화 및 스토리지 활용 최적화
 ⅲ. 유연성 확보: 비정형 데이터 수용, 스키마 진화 지원
 ⅳ. 신뢰성 보장: 장애 발생 시에도 데이터 손실 없이 복구 가능

Ⅲ. 빅데이터 모델링 유형

모델 유형 설명 사용 사례
관계형 모델 (RDBMS) 정형 스키마 기반, 테이블과 관계로 데이터 구조화 트랜잭션 처리, 레거시 시스템 통합
칼럼 패밀리 모델 컬럼 단위로 물리적 저장, 대량 쓰기·읽기에 최적화 로그 수집, 시계열 데이터 저장
키-값 모델 단일 키로 값을 빠르게 조회, 매우 단순한 데이터 구조 세션 관리, 캐시, 사용자 설정 저장
문서 지향 모델 JSON·XML 같은 문서 형태로 비정형 데이터를 유연하게 저장 콘텐츠 관리, 전자상거래 상품 카탈로그
그래프 모델 노드와 엣지로 관계를 저장, 복잡한 네트워크 분석에 최적화 소셜 네트워크, 추천 시스템, 지식 그래프

 

Ⅳ. 빅데이터 모델링 프로세스

 ⅰ. 요구사항 수집
   1) 분석 목적(실시간 조회 vs 배치 분석), 데이터 유형(로그, 이미지, IoT 스트림) 파악
   2) RTO(복구 목표 시간), RPO(복구 목표 지점) 등 비즈니스 SLA 정의
 ⅱ. 데이터 프로파일링
   1)  데이터 분포, 결측치 비율, 도메인별 데이터 레인지 조사
   2)  비정형 필드(텍스트, JSON) 비율 및 구조 파악
 ⅲ. 스키마 설계
   1) 스키마 온 라이트(Schema-on-Write): 저장 시점에 스키마 검증 (예: Hive, Cassandra)
   2) 스키마 온 리드(Schema-on-Read): 읽기 시점에 스키마 적용 (예: HDFS + Spark, Elasticsearch)
   3) 파티셔닝(날짜, 해시), 정규화/비정규화, 인덱스(보조 인덱스, 역색인) 전략 결정
 ⅳ. 저장소·처리 플랫폼 선정
   1) Hadoop HDFS: 대용량 배치 저장 및 MapReduce
   2) NoSQL DB: Cassandra, MongoDB, HBase 등
   3) 데이터 웨어하우스: Amazon Redshift, Google BigQuery, Snowflake
   4) 스트림 처리: Kafka, Flink, Spark Streaming
 ⅴ. 성능 튜닝 및 테스트
   1) 샘플 데이터로 쿼리·처리 성능 벤치마크
   2) 파티션 키 변경, 압축, 병렬도 조정, 캐시 활용 등 최적화
 ⅵ. 운영·모니터링
   1) 클러스터 리소스(CPU, 메모리, 디스크 I/O) 모니터링
   2) 데이터 적재 지연, 에러율, 쿼리 응답 시간 모니터링
   3) Autoscaling 및 장애 복구 자동화

Ⅴ. 빅데이터 모델링 주요 고려 사항

 ⅰ. 확장성(Scalability)
   1) 수평 확장(노드 추가) 지원 여부
   2) 샤딩·파티셔닝 전략
 ⅱ. 가용성(Availability)
   1) 복제(replication) 정책, 장애 시 자동 failover
   2) 데이터 일관성 모델(CAP 이론) 선택
 ⅲ. 유연성(Flexibility)
   1) 스키마 변경 시 다운타임 최소화
   2) 반정형·비정형 데이터 수용 가능성
 ⅳ. 보안(Security)
   1) 데이터 암호화(저장·전송)
   2) 접근 제어(ACL, 역할 기반 RBAC)
 ⅴ. 비용(Cost)
   1) 저장 용량 및 I/O 비용
    2) 클라우드 리소스 사용량 최적화

Ⅵ. 빅데이터 모델링 도구 및 플랫폼

분류 대표 기술
분산 파일 시스템 Hadoop HDFS, Amazon S3
SQL 엔진 Apache Hive, Presto, Impala
NoSQL DB Apache Cassandra, MongoDB, HBase
데이터 웨어하우스 Snowflake, Google BigQuery, AWS Redshift
스트림 처리  Apache Kafka, Apache Flink, Spark Streaming



 
 
 
 

반응형