PYTHON/Python

Python 머신러닝 개념 및 절차 기초 정리

진리뷰 2024. 4. 5. 09:00

이 글은 머신러닝 개념, 종류, 기본 용어 및 절차, 알고리즘 종류 기초 정리를 담고 있습니다.

머신러닝 개념

머신러닝은 기계학습(Machine Learning, ML)으로 불림.
이름처럼 컴퓨터가 알고리즘(모델)을 사용하며, 데이터 분석 및 패턴 학습.
학습 결과를 바탕으로 자동화, 예측, 솔루션 제시, 의사결정 등이 가능.
예시: 자율주행, 상담 챗봇, 판매량 예측, 맞춤형 서비스/상품 추천.

머신러닝 종류

지도 학습(Supervised Learning)

사람이 제공한 입출력값(함수 관계, 문제와 정답)을 학습하며 예측.

쉽게 말해, 정답이 있는 것을 학습. 시험을 위한 주입식 교육 같다.

지도 학습 중 하나인 일반화 예시는 다음과 같다.

만약 "A상황(문제)에서 B상황(정답)이 발생한다"라고 학습하면, A'상황에서 B'상황이 발생할 것이라 예측함.

비지도 학습(Unsupervised Learning)

사람이 제공하는 입출력값 없이 기계가 스스로 데이터, 변수를 학습하며 패턴 파악.

이로써 새로운 관계 및 의미를 찾아낼 수 있음. 쉽게 말해, 정답이 없는 것을 학습.

비지도 학습 중 하나인 연관성 분석 예시는 다음과 같다.

만약 "마트에서 파스타 면을 사는 사람들이 베이컨도 산다"라는 연관성(패턴)을 파악하면, 이후 파스타 면을 살 때 베이컨을 추천할 수 있음.

강화 학습(Reinforcement Learning)

시뮬레이션 및 현재 겪는 시행착오를 반복 학습(환경과 상호작용)하며 개선하고 보상을 최대화하는 action 파악.

이때 보상이란 학습을 통해 보이는 행동(Action)의 결과로 받는 것인데, 보상은 reward(+)와 punishment(-)로 구분된다.

머신러닝 기본 용어 및 절차

기본 용어

레이블 Label: 목푯값 / 실제값 / 결괏값 / 종속 변수(Y) / 정답 등을 의미.
피처 Feature: 각각의 독립 변수(X) / 하나의 열(컬럼)을 의미.
샘플 Sample: 하나의 행(로우, 레코드)을 의미.
적합 fitting: 학습/훈련 과정으로 모델이 데이터에 적합해지는 과정을 의미.
과적합 Overfitting: 훈련용 데이터를 과하게 학습. 때문에 검증용 데이터나, 조금만 달라지거나 새로운 상황에서는 정확도가 떨어짐.
과소적합 Underfitting: 훈련이 부족한 상황으로, 훈련용 데이터에 대한 정확도가 낮음

머신러닝 절차

1. 데이터 전처리(preprocessing) 및 분할(data partition), 모델 선택

이때 데이터는 훈련용(train set), 검증용(test set)으로 분할, 알고리즘(모델)과 피처(feature) 등을 선택한다.

2. 모델 학습(반복)

알고리즘(모델)으로 데이터를 학습하고 모델의 성능 향상을 위해 튜닝하기도 한다.

이때 사용하는 데이터는 훈련용(train set)이다.

3. 모델 평가(반복)

학습된 모델을 비교하며 좋은 모델을 선택한다.

이때 모델 학습과 평가는 반복적으로 진행하는 과정이다.

4. 모델 배포 및 활용

머신러닝 알고리즘 종류

사용되는 알고리즘은 다양하지만, 그중 몇 가지만 다뤄보자.

지도 학습

회귀(Regression)

회귀는 독립 변수(x)로 종속 변수(y) 값을 예측하는데, 수치형/연속형인 종속 변수를 예측한다.

예를 들면, 주택 가격을 예측 시 방의 개수와 주택 가격 간 관계 모델링.

그중 선형 회귀(Linear Regression)는 데이터 포인트들이 가장 잘 설명할 수 있는 직선을 찾는 과정이다.

단순 선형 회귀는 독립 변수와 종속 변수 1:1 관계로 진행된다.

다중 선형 회귀는 여러 독립 변수와 하나의 종속 변수 n:1 관계로 진행된다.

분류(Classification)

분류는 종속 변수 값이 범주형이며, 이진 분류(Binary Classification)와 다중 분류(Multi class Classification)로 나뉜다.

입력값에 따라 출력값이 둘로 분류되면 이진 분류, 셋 이상으로 분류되면 다중 분류이다.

예를 들면, 구매 여부(YES/NO) 및 제품 불량 여부(정상/불량)를 구분.

그중 로지스틱 회귀(Logistic Regression)는 이진 분류 문제에 사용하는 알고리즘이다.

비지도 학습

연관성 분석(Association Rule)

A사건이 발생할 때 빈번하게 발생하는 사건의 유형/규칙을 도출함.

- 얼마나 빈번하게 발생하는가(지지도, support)

- 연관 규칙의 강도가 어떤가(신뢰도, confidence)

-임의로 발생할 확률(자연 확률) 대비 A사건과 함께 발생할 확률이 얼마나 증가했는가(향상도, lift) 등을 중점적으로 고려.

이때 테이블 상 관련 있는 "컬럼(특성)"을 대상으로 그룹화한다.

군집화(Clustering)

데이터 별 좌표값이 가까우면, 비슷한 데이터로 인식. 이후 비슷한 데이터들로 군집 생성 및 분류함.

이때 테이블 상 비슷한 "로우(관측치)"를 대상으로 그룹화한다.

차원축소(Dimension Reduction)

데이터가 많을수록 복잡해져, 과적합처럼 머신러닝 알고리즘 성능에 악영향을 미칠 수 있다.

따라서 무결성을 최대한으로 보존하되 변수를 줄인다.

저작자표시 비영리 변경금지 (새창열림)

'PYTHON > Python' 카테고리의 다른 글

Python seaborn 서브플롯 생성 기초 정리 (1)	2024.04.10
Python matplotlib 서브플롯 fig, ax(s) 개념과 사용법 기초 정리 (0)	2024.04.08
Python 머신러닝 피처 엔지니어링(Feature Enginerring) 개념 기초 정리 (0)	2024.04.04
Python 머신러닝 피처 스케일링과 min-max 정규화 기초 정리 (1)	2024.03.28
Python os 모듈 기초 정리 (0)	2024.03.25

현재글Python 머신러닝 개념 및 절차 기초 정리

진리뷰의 자기개발