반응형

빅데이터(Big Data) 3

다크 데이터(Dark Data)에 대해 알아보겠습니다.

Ⅰ. 다크 데이터(Dark Data)란? 조직이 수집, 처리 또는 저장하고 있지만, 실질적으로 활용되지 않는 데이터를 의미합니다. 데이터의 가치와 잠재력을 인식하지 못하거나, 관리 및 분석이 어려워 방치된 데이터를 포함합니다. 빅데이터(Big Data)와 비슷하면서도 구조화되어 있지 않고, 사용하지 않는 ‘죽은’ 데이터를 의미한다. 일반적으로 정보를 수집해 저장한 이후 분석이나 특별한 목적을 위해 활용하는 데이터가 아니며,  저장공간만 차지하고 이러한 이유로 심각한 보안 위험을 초래할 수 있습니다.다크 데이터는 IT 인프라, 비즈니스 운영, 사용자 활동 등 다양한 출처에서 생성될 수 있습니다. Ⅱ. 다크 데이터(Dark Data) 특징 ⅰ. 활용되지 않음  1) 저장만 되고 분석이나 의사결정에 사용되지 ..

Hadoop 에 대해 알아보겠습니다.

Ⅰ. Hadoop 이란? 오픈소스 분산 컴퓨팅 프레임워크로, 대규모 데이터를 효율적으로 저장하고 처리하는 데 사용됩니다. Apache Software Foundation에서 개발했으며, 확장성과 내결함성을 특징으로 합니다. 특히, 수천 대의 서버로 구성된 클러스터 환경에서 대규모 데이터를 저장하고 병렬로 처리할 수 있도록 설계되었습니다. Ⅱ. Hadoop의 구성 요소 구성 요소 설명특징HDFS (Hadoop Distributed File System)분산 파일 시스템으로 데이터를 여러 노드에 나누어 저장.대용량 데이터 세트를 높은 처리량으로 저장 및 관리.데이터 복제(기본적으로 3개의 복제본 유지)로 내결함성 제공.Write Once, Read Many 방식으로 데이터 추가나 읽기에 최적화.YARN (Y..

데이터 마이닝(Data Mining)에 대해 알아보겠습니다.

Ⅰ. 데이터 마이닝(Data Mining)이란?대량의 데이터에서 유의미한 패턴, 관계, 통계적 규칙 등을 발견하고 이를 활용하여 의사결정에 도움을 주는 과정입니다.데이터 마이닝은 데이터 분석, 통계, 인공지능, 머신러닝 등의 기술을 활용하여 복잡하고 숨겨진 데이터를 탐색하고 지식을 도출하는 데 중점을 둡니다.Ⅱ. 데이터 마이닝(Data Mining) 주요 프로세스 ⅰ. 문제 정의 및 목표 설정      1) 분석 목표와 문제 정의.      2) 데이터를 통해 얻고자 하는 정보를 명확히 설정.  ⅱ. 데이터 수집 및 준비      1) 다양한 데이터 소스(데이터베이스, 로그 파일, 센서 데이터 등)에서 데이터 수집.      2) 결측값 처리, 이상값 탐지, 데이터 변환 및 정규화 등 데이터 전처리.  ..

반응형