지도 학습

공부/A.I 2021. 5. 9. 15:18

파이썬 라이브러리를 활용한 머신러닝(번역개정판)

사이킷런 핵심 개발자에게 배우는 머신러닝 이론과 구현 현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없습니다. 사이킷런(scikit-learn)과 같은 훌륭

books.google.co.jp

- 분류와 회귀

분류, classification : 미리 정의된, 여러 클래스레이블 중 하나를 예측하는 것(꽃의 품종을 분류)
분류는 두개의 클래스로 분류하는 이진분류와 셋 이상의 클래스로 분류하는 다중분류로 나뉜다.

회귀, Regression : 어떤 클래스를 예측하는 것이 아닌, 연속적인 숫자, 실수를 예측하는 것(판매량 예측, 인구수 예측 등)

- 일반화, generalization

훈련 데이터로 학습시킨 모델이 새로운 데이터 포인트에 대해 정확하게 예측가능하면, 이를 테스트 세트로 일반화 되었다고 한다.

과대적합, overfitting : 모델을 너무 복잡하게 만들어 일반화 성능이 떨어지는 것, 테스트세트에 너무 가깝게 맞춰짐

과소적합, underfitting : 모델을 너무 간단하게 만들어 데이터에 대해 학습에 제대로 되지않은 것

아래 그림과 같이, 모델에 많은 정보와 규칙을 사용해 학습시켜, 높은 복잡도의 모델을 만들면, 훈련세트에 대해 높은 정확도를 보이지만, 테스트세트에 대해서는 최적점을 기준으로 정확도가 낮아짐을 볼 수 있다.

이처럼 적당한 복잡도를 가진 모델(일반화 성능이 최대가 되는 최적점에 있는 모델)을 만들어야한다.

컴공생 일상 블로그 컴공생 일상 블로그