Ⅰ. 머신러닝(Machine Learning) 이란?
명시적인 프로그래밍 없이 컴퓨터가 데이터로부터 학습하고 스스로 성능을 개선해 나가는 인공지능(AI)의 하위 분야입니다. 알고리즘을 통해 데이터를 분석하고, 그 결과를 기반으로 예측이나 판단을 수행합니다. 핵심은 ‘경험을 통해 스스로 발전하는 능력’입니다.
Ⅱ. 머신러닝(Machine Learning) 작동 원리
인간의 학습 과정을 모방하여 반복적인 학습을 통해 성능을 향상시킵니다. 대량의 데이터를 입력받아 그 속의 패턴과 상관관계를 찾아내고, 이를 바탕으로 최적의 의사결정을 할 수 있도록 훈련됩니다. 사람이 데이터를 보고 정답을 찾는 것처럼, 머신러닝도 데이터와 오류를 반복적으로 조정하며 점차 ‘인간과 유사한 판단’을 하도록 학습됩니다.
Ⅲ. 머신러닝의 주요 학습 유형
ⅰ. 지도학습 (Supervised Learning) 이란?
: 이미 정답(라벨)이 있는 데이터를 기반으로 학습하여, 새로운 데이터에 대한 예측을 수행하는 방식입니다.
ⅱ. 지도학습 (Supervised Learning) 분류
1) 분류(Classification)
■ 범주형 데이터(예: 스팸/비스팸)를 분류
■ 이진 분류: 두 개의 클래스를 구분
■ 다중 분류: 세 개 이상 클래스 분류
2) 회귀(Regression)
■ 연속적인 수치 예측 (예: 집값, 주가)
■ 입력 변수와 출력 변수 간의 수치적 관계를 학습
ⅲ. 비지도학습 (Unsupervised Learning)
: 정답이 없는 데이터를 활용해, 패턴이나 구조를 스스로 발견합니다.
■ 클러스터링(Clustering): 비슷한 데이터를 그룹화
■ 차원 축소(Dimensionality Reduction): 데이터의 핵심 특성만 추출하여 차원을 줄임
ⅳ. 강화학습 (Reinforcement Learning)
: 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습하는 방식입니다. 게임, 로봇 제어 등에서 자주 사용됩니다.
Ⅳ. 대표적인 머신러닝 알고리즘
ⅰ. 선형 회귀 (Linear Regression)
: 가장 기본적인 회귀 분석 모델로, 독립 변수와 종속 변수 간의 선형 관계를 기반으로 예측합니다.
ⅱ. 선형 회귀 (Linear Regression) 특징
■ 간단하고 해석이 쉬움
■ 다른 모델의 비교 기준(베이스라인)으로 사용
■ 복잡한 관계를 설명하기엔 한계가 있음
ⅲ. 로지스틱 회귀 (Logistic Regression)
: 분류 문제에 적합한 모델로, 출력값을 0~1 사이 확률로 변환해 이진 결정을 수행합니다.
| 항목 | 선형 회귀 | 로지스틱 회귀 |
| 용도 | 수치 예측 | 분류 문제 (예/아니오) |
| 출력 | 연속적인 실수 | 0~1 사이 확률 |
ⅳ. 의사결정트리 (Decision Tree)
: 데이터의 조건을 따라 분기 구조로 의사결정을 내리는 트리 형태의 알고리즘입니다. 해석이 직관적이며 분류와 회귀 모두에
사용됩니다.
ⅴ. 랜덤 포레스트 (Random Forest)
: 여러 개의 의사결정 트리를 결합해 결과를 도출하는 앙상블 기법입니다.
■ 일부 특성을 무작위로 선택하여 각 트리를 생성
■ 결과를 다수결 방식으로 통합
■ 과적합(overfitting)을 줄이는 데 효과적
ⅵ. 서포트 벡터 머신 (SVM)
: 가장 큰 간격(margin)을 가진 경계선을 찾아 분류하는 알고리즘입니다. 분류 경계가 명확한 문제에 효과적입니다.
ⅶ. K-최근접 이웃 (KNN)
: 가장 가까운 K개의 데이터를 참고해 분류하거나 예측하는 방식입니다.
계산은 간단하지만 데이터 수가 많으면 느려질 수 있습니다.
Ⅴ. 앙상블 학습 (Ensemble Learning)
: 여러 모델을 결합해 단일 모델보다 더 좋은 성능을 내는 기법입니다.
ⅰ. 배깅(Bagging)
■ 데이터를 무작위로 샘플링해 여러 모델을 훈련
■ Ex) 랜덤 포레스트
ⅱ. 부스팅(Boosting)
■ 이전 모델의 오차를 보완하며 순차적으로 학습
■ 잘못 예측한 데이터에 가중치를 두어 성능 향상
| 비교 항목 | 배깅(Bagging) | 부스팅(Boosting) |
| 처리 방식 | 병렬 처리 | 순차 처리 |
| 모델 특성 | 과적합 감소, 안정성 우수 | 높은 정확도, 성능 우수 |
| 대표 예 | Random Forest | AdaBoost, XGBoost |
Ⅵ. 머신러닝 모델 평가 지표
ⅰ. 회귀 모델 평가
■ MSE (Mean Squared Error): 예측 오차의 제곱 평균
■ RMSE (Root MSE): MSE의 제곱근
■ MAE (Mean Absolute Error): 오차의 절대값 평균
※ 값이 작을수록 예측력이 우수
ⅱ. 분류 모델 평가
■ 정확도(Accuracy): 전체 중 맞춘 비율
■ 정밀도(Precision): Positive로 예측한 것 중 실제 Positive
■ 재현율(Recall): 실제 Positive 중 예측도 Positive
■ F1 Score: 정밀도와 재현율의 조화 평균
Ⅶ. 모델 검증 및 최적화
ⅰ. 교차 검증 (Cross Validation)
: 데이터를 여러 조각으로 나누어 반복 학습과 검증을 수행.
→ 모델의 일관성과 일반화 능력을 평가.
ⅱ. 그리드 서치 (Grid Search)
: 하이퍼파라미터(매개변수)를 체계적으로 조합해 최적값을 탐색.
→ 모델의 성능 극대화에 활용됨.
Ⅷ. 머신러닝의 실제 활용 사례
| 분야 | 내용 |
| 의료 분야 | 질병 예측, 영상 진단, 맞춤형 치료 계획 웨어러블 기기를 통한 실시간 건강 모니터링 |
| 금융 분야 | 이상 거래 탐지, 신용 등급 평가, 자산 포트폴리오 최적화 |
| 마케팅 및 영업 | 고객 행동 분석을 통한 상품 추천 구매 이력 기반의 개인 맞춤형 광고 및 마케팅 전략 |
| 제조 분야 | 공정 최적화 및 품질 검사 자동화 배추 영상 이미지로 중량과 부피를 예측하여 김치 공정 개선 |
'AI(Artificial Intelligence)' 카테고리의 다른 글
| AI 할루시네이션(AI hallucination) 에 대해 알아보겠습니다. (3) | 2025.08.22 |
|---|---|
| 사람처럼 보고 이해하는 인공지능, 딥뷰(Deep View)에 대해 알아보겠습니다. (1) | 2025.07.02 |
| Multimodal LLM(Multimodal Large Language Model) 에 대해 알아보겠습니다. (0) | 2025.06.26 |
| 딥페이크(Deepfake) 에 대해 알아보겠습니다. (1) | 2025.06.25 |
| CNN(Convolutional Neural Network, 합성곱 신경망)에 대해 알아보겠습니다. (0) | 2025.06.24 |