PYTHON/Python

Python 머신러닝 개념 및 절차 기초 정리

진리뷰 2024. 4. 5. 09:00
반응형

 

 

 

Python 머신러닝-개념-및-절차-기초-정리-썸네일
머신러닝 개념 및 절차

 

 

 

이 글은 머신러닝 개념, 종류, 기본 용어 및 절차, 알고리즘 종류 기초 정리를 담고 있습니다.

 

 

 

머신러닝 개념

 

  • 머신러닝은 기계학습(Machine Learning, ML)으로 불림.
  • 이름처럼 컴퓨터가 알고리즘(모델)을 사용하며, 데이터 분석 및 패턴 학습.
  • 학습 결과를 바탕으로 자동화, 예측, 솔루션 제시, 의사결정 등이 가능.
  • 예시: 자율주행, 상담 챗봇, 판매량 예측, 맞춤형 서비스/상품 추천.

 

 

 

머신러닝 종류

 

  • 지도 학습(Supervised Learning)

사람이 제공한 입출력값(함수 관계, 문제와 정답)을 학습하며 예측.

쉽게 말해, 정답이 있는 것을 학습. 시험을 위한 주입식 교육 같다.

지도 학습 중 하나인 일반화 예시는 다음과 같다.

만약 "A상황(문제)에서 B상황(정답)이 발생한다"라고 학습하면, A'상황에서 B'상황이 발생할 것이라 예측함.

 

  • 비지도 학습(Unsupervised Learning)

사람이 제공하는 입출력값 없이 기계가 스스로 데이터, 변수를 학습하며 패턴 파악.

이로써 새로운 관계 및 의미를 찾아낼 수 있음. 쉽게 말해, 정답이 없는 것을 학습.

비지도 학습 중 하나인 연관성 분석 예시는 다음과 같다.

만약 "마트에서 파스타 면을 사는 사람들이 베이컨도 산다"라는 연관성(패턴)을 파악하면, 이후 파스타 면을 살 때 베이컨을 추천할 수 있음.

 

  • 강화 학습(Reinforcement Learning)

시뮬레이션 및 현재 겪는 시행착오를 반복 학습(환경과 상호작용)하며 개선하고 보상을 최대화하는 action 파악.

이때 보상이란 학습을 통해 보이는 행동(Action)의 결과로 받는 것인데, 보상은 reward(+)와 punishment(-)로 구분된다.

 

 

 

머신러닝 기본 용어 및 절차

 

 

기본 용어

 

  • 레이블 Label: 목푯값 / 실제값 / 결괏값 / 종속 변수(Y) / 정답 등을 의미.
  • 피처 Feature: 각각의 독립 변수(X) / 하나의 열(컬럼)을 의미.
  • 샘플 Sample: 하나의 행(로우, 레코드)을 의미.
  • 적합 fitting: 학습/훈련 과정으로 모델이 데이터에 적합해지는 과정을 의미.
  • 과적합 Overfitting: 훈련용 데이터를 과하게 학습. 때문에 검증용 데이터나, 조금만 달라지거나 새로운 상황에서는 정확도가 떨어짐.
  • 과소적합 Underfitting: 훈련이 부족한 상황으로, 훈련용 데이터에 대한 정확도가 낮음

 

 

 

머신러닝 절차

 

  • 1. 데이터 전처리(preprocessing) 및 분할(data partition), 모델 선택

이때 데이터는 훈련용(train set), 검증용(test set)으로 분할, 알고리즘(모델)과 피처(feature) 등을 선택한다.

  • 2. 모델 학습(반복)

알고리즘(모델)으로 데이터를 학습하고 모델의 성능 향상을 위해 튜닝하기도 한다.

이때 사용하는 데이터는 훈련용(train set)이다.

  • 3. 모델 평가(반복)

학습된 모델을 비교하며 좋은 모델을 선택한다.

이때 모델 학습과 평가는 반복적으로 진행하는 과정이다.

  • 4. 모델 배포 및 활용

 

 

 

머신러닝 알고리즘 종류

 

사용되는 알고리즘은 다양하지만, 그중 몇 가지만 다뤄보자.

 

지도 학습

 

  • 회귀(Regression)

회귀는 독립 변수(x)로 종속 변수(y) 값을 예측하는데, 수치형/연속형인 종속 변수를 예측한다.

예를 들면, 주택 가격을 예측 시 방의 개수와 주택 가격 간 관계 모델링.

그중 선형 회귀(Linear Regression)는 데이터 포인트들이 가장 잘 설명할 수 있는 직선을 찾는 과정이다.

단순 선형 회귀는 독립 변수와 종속 변수 1:1 관계로 진행된다.

다중 선형 회귀는 여러 독립 변수와 하나의 종속 변수 n:1 관계로 진행된다.

 

  • 분류(Classification)

분류는 종속 변수 값이 범주형이며, 이진 분류(Binary Classification)와 다중 분류(Multi class Classification)로 나뉜다.

입력값에 따라 출력값이 둘로 분류되면 이진 분류, 셋 이상으로 분류되면 다중 분류이다.

예를 들면, 구매 여부(YES/NO) 및 제품 불량 여부(정상/불량)를 구분.

그중 로지스틱 회귀(Logistic Regression)는 이진 분류 문제에 사용하는 알고리즘이다.

 

 

 

비지도 학습

 

  • 연관성 분석(Association Rule)

A사건이 발생할 때 빈번하게 발생하는 사건의 유형/규칙을 도출함.

- 얼마나 빈번하게 발생하는가(지지도, support)

- 연관 규칙의 강도가 어떤가(신뢰도, confidence)

-임의로 발생할 확률(자연 확률) 대비 A사건과 함께 발생할 확률이 얼마나 증가했는가(향상도, lift) 등을 중점적으로 고려.

이때 테이블 상 관련 있는 "컬럼(특성)"을 대상으로 그룹화한다.

  • 군집화(Clustering)

데이터 별 좌표값이 가까우면, 비슷한 데이터로 인식. 이후 비슷한 데이터들로 군집 생성 및 분류함.

이때 테이블 상 비슷한 "로우(관측치)"를 대상으로 그룹화한다.

  • 차원축소(Dimension Reduction)

데이터가 많을수록 복잡해져, 과적합처럼 머신러닝 알고리즘 성능에 악영향을 미칠 수 있다.

따라서 무결성을 최대한으로 보존하되 변수를 줄인다.

 

반응형
top