반응형

빅데이터(Big Data) 2

Hadoop 에 대해 알아보겠습니다.

Ⅰ. Hadoop 이란? 오픈소스 분산 컴퓨팅 프레임워크로, 대규모 데이터를 효율적으로 저장하고 처리하는 데 사용됩니다. Apache Software Foundation에서 개발했으며, 확장성과 내결함성을 특징으로 합니다. 특히, 수천 대의 서버로 구성된 클러스터 환경에서 대규모 데이터를 저장하고 병렬로 처리할 수 있도록 설계되었습니다. Ⅱ. Hadoop의 구성 요소 구성 요소 설명특징HDFS (Hadoop Distributed File System)분산 파일 시스템으로 데이터를 여러 노드에 나누어 저장.대용량 데이터 세트를 높은 처리량으로 저장 및 관리.데이터 복제(기본적으로 3개의 복제본 유지)로 내결함성 제공.Write Once, Read Many 방식으로 데이터 추가나 읽기에 최적화.YARN (Y..

데이터 마이닝(Data Mining)에 대해 알아보겠습니다.

Ⅰ. 데이터 마이닝(Data Mining)이란?대량의 데이터에서 유의미한 패턴, 관계, 통계적 규칙 등을 발견하고 이를 활용하여 의사결정에 도움을 주는 과정입니다.데이터 마이닝은 데이터 분석, 통계, 인공지능, 머신러닝 등의 기술을 활용하여 복잡하고 숨겨진 데이터를 탐색하고 지식을 도출하는 데 중점을 둡니다.Ⅱ. 데이터 마이닝(Data Mining) 주요 프로세스 ⅰ. 문제 정의 및 목표 설정      1) 분석 목표와 문제 정의.      2) 데이터를 통해 얻고자 하는 정보를 명확히 설정.  ⅱ. 데이터 수집 및 준비      1) 다양한 데이터 소스(데이터베이스, 로그 파일, 센서 데이터 등)에서 데이터 수집.      2) 결측값 처리, 이상값 탐지, 데이터 변환 및 정규화 등 데이터 전처리.  ..

반응형