AI(Artificial Intelligence)

머신러닝(Machine Learning) 에 대해 알아보겠습니다.

forward error correction Circle 2025. 6. 30. 08:51
반응형

Ⅰ. 머신러닝(Machine Learning) 이란?

 명시적인 프로그래밍 없이 컴퓨터가 데이터로부터 학습하고 스스로 성능을 개선해 나가는 인공지능(AI)의 하위 분야입니다. 알고리즘을 통해 데이터를 분석하고, 그 결과를 기반으로 예측이나 판단을 수행합니다. 핵심은 ‘경험을 통해 스스로 발전하는 능력’입니다.

Ⅱ. 머신러닝(Machine Learning) 작동 원리

 인간의 학습 과정을 모방하여 반복적인 학습을 통해 성능을 향상시킵니다. 대량의 데이터를 입력받아 그 속의 패턴과 상관관계를 찾아내고, 이를 바탕으로 최적의 의사결정을 할 수 있도록 훈련됩니다. 사람이 데이터를 보고 정답을 찾는 것처럼, 머신러닝도 데이터와 오류를 반복적으로 조정하며 점차 ‘인간과 유사한 판단’을 하도록 학습됩니다.

Ⅲ. 머신러닝의 주요 학습 유형

 ⅰ. 지도학습 (Supervised Learning) 이란?
      : 이미 정답(라벨)이 있는 데이터를 기반으로 학습하여, 새로운 데이터에 대한 예측을 수행하는 방식입니다.
 ⅱ. 지도학습 (Supervised Learning) 분류

      1) 분류(Classification)
      ■ 범주형 데이터(예: 스팸/비스팸)를 분류
      ■ 이진 분류: 두 개의 클래스를 구분
      ■ 다중 분류: 세 개 이상 클래스 분류
     2) 회귀(Regression)
      ■ 연속적인 수치 예측 (예: 집값, 주가)
      ■ 입력 변수와 출력 변수 간의 수치적 관계를 학습
 ⅲ. 비지도학습 (Unsupervised Learning)
      : 정답이 없는 데이터를 활용해, 패턴이나 구조를 스스로 발견합니다.
      ■ 클러스터링(Clustering): 비슷한 데이터를 그룹화
      ■ 차원 축소(Dimensionality Reduction): 데이터의 핵심 특성만 추출하여 차원을 줄임
 ⅳ. 강화학습 (Reinforcement Learning)
      : 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습하는 방식입니다. 게임, 로봇 제어 등에서 자주 사용됩니다.

Ⅳ. 대표적인 머신러닝 알고리즘

 ⅰ. 선형 회귀 (Linear Regression)
       : 가장 기본적인 회귀 분석 모델로, 독립 변수와 종속 변수 간의 선형 관계를 기반으로 예측합니다.
 ⅱ. 선형 회귀 (Linear Regression) 특징
      ■ 간단하고 해석이 쉬움
      ■ 다른 모델의 비교 기준(베이스라인)으로 사용
      ■ 복잡한 관계를 설명하기엔 한계가 있음
 ⅲ. 로지스틱 회귀 (Logistic Regression)
      : 분류 문제에 적합한 모델로, 출력값을 0~1 사이 확률로 변환해 이진 결정을 수행합니다.

항목 선형 회귀 로지스틱 회귀
용도 수치 예측 분류 문제 (예/아니오)
출력 연속적인 실수 0~1 사이 확률


 ⅳ. 의사결정트리 (Decision Tree)
      : 데이터의 조건을 따라 분기 구조로 의사결정을 내리는 트리 형태의 알고리즘입니다. 해석이 직관적이며 분류와 회귀 모두에

        사용됩니다.
 ⅴ. 랜덤 포레스트 (Random Forest)
       : 여러 개의 의사결정 트리를 결합해 결과를 도출하는 앙상블 기법입니다.
      ■ 일부 특성을 무작위로 선택하여 각 트리를 생성
      ■ 결과를 다수결 방식으로 통합
      ■ 과적합(overfitting)을 줄이는 데 효과적
 ⅵ. 서포트 벡터 머신 (SVM)
      : 가장 큰 간격(margin)을 가진 경계선을 찾아 분류하는 알고리즘입니다. 분류 경계가 명확한 문제에 효과적입니다.
 ⅶ. K-최근접 이웃 (KNN)
      : 가장 가까운 K개의 데이터를 참고해 분류하거나 예측하는 방식입니다.

        계산은 간단하지만 데이터 수가 많으면 느려질 수 있습니다.

Ⅴ. 앙상블 학습 (Ensemble Learning)

      : 여러 모델을 결합해 단일 모델보다 더 좋은 성능을 내는 기법입니다.
    ⅰ. 배깅(Bagging)

      ■ 데이터를 무작위로 샘플링해 여러 모델을 훈련
      ■ Ex) 랜덤 포레스트
    ⅱ. 부스팅(Boosting)

      ■ 이전 모델의 오차를 보완하며 순차적으로 학습
      ■ 잘못 예측한 데이터에 가중치를 두어 성능 향상

비교 항목 배깅(Bagging) 부스팅(Boosting)
처리 방식  병렬 처리 순차 처리
모델 특성 과적합 감소, 안정성 우수 높은 정확도, 성능 우수
대표 예 Random Forest AdaBoost, XGBoost

Ⅵ. 머신러닝 모델 평가 지표

 ⅰ. 회귀 모델 평가
      ■ MSE (Mean Squared Error): 예측 오차의 제곱 평균
      ■ RMSE (Root MSE): MSE의 제곱근
      ■ MAE (Mean Absolute Error): 오차의 절대값 평균
      ※ 값이 작을수록 예측력이 우수
 ⅱ. 분류 모델 평가
      ■ 정확도(Accuracy): 전체 중 맞춘 비율
      ■ 정밀도(Precision): Positive로 예측한 것 중 실제 Positive
      ■ 재현율(Recall): 실제 Positive 중 예측도 Positive
      ■ F1 Score: 정밀도와 재현율의 조화 평균

Ⅶ. 모델 검증 및 최적화

 ⅰ. 교차 검증 (Cross Validation)
       : 데이터를 여러 조각으로 나누어 반복 학습과 검증을 수행.
       → 모델의 일관성과 일반화 능력을 평가.
 ⅱ. 그리드 서치 (Grid Search)
       : 하이퍼파라미터(매개변수)를 체계적으로 조합해 최적값을 탐색.
       → 모델의 성능 극대화에 활용됨.

Ⅷ. 머신러닝의 실제 활용 사례

분야 내용
의료 분야 질병 예측, 영상 진단, 맞춤형 치료 계획
웨어러블 기기를 통한 실시간 건강 모니터링
금융 분야 이상 거래 탐지, 신용 등급 평가, 자산 포트폴리오 최적화
마케팅 및 영업 고객 행동 분석을 통한 상품 추천
구매 이력 기반의 개인 맞춤형 광고 및 마케팅 전략
제조 분야 공정 최적화 및 품질 검사 자동화
배추 영상 이미지로 중량과 부피를 예측하여 김치 공정 개선

 

반응형