본문 바로가기
728x90

machinelearning13

[ML] KNN - bmi model import pandas as pd import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklearn import metrics from sklearn.metrics import classification_report # 한글폰트 설정 from matplotlib import font_manager, rc font_name = font_manager.FontProperties(fname='C:/Windows/Fonts/malgun.ttf').get_name() rc('font', family=font_name) - Data Collection bmi = pd.read_csv('./bmi_500.csv.. 2021. 4. 29.
[ML] 일반화, 과대적합, 과소적합 - 일반화(Generalization) 훈련 세트로 학습한 모델이 테스트 세트에 대해 정확히 예측하도록 하는 것 - 과대적합(Overfitting) 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하 너무 상세하고 복잡한 모델링을 하여 훈련데이터에만 과도하게 정확히 동작하는 모델 - 과소적합(Underfitting) 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능이 저하 모델링을 너무 간단하게 하여 성능이 제대로 나오지 않는 모델 - 해결방법 주어진 훈련 데이터의 다양성 보장 → 다양한 데이터포인트를 골고루 나타내야함 일반적으로 데이터의 양이 많으면 일반화에 도움 편중된 데이터를 많이 모으는 것은 도움이 되지 않음 규제(Regularization)을 통해 모델의 복잡도를 적.. 2021. 4. 29.
[ML] KNN 알고리즘 - AND, XOR 연산 - scikit-learn 파이썬에서 쉽게 사용할 수 있는 머신러닝 프레임 워크, 라이브러리 회귀, 분류, 군집, 차원축소, 특성공학, 전처리, 교차검증, 파이프라인 등 머신러닝에 필요한 기능을 갖춤 학습을 위한 샘플 데이터 제공 - KNN(K-Nearest Neighbors, k-최근접 이웃 알고리즘) 새로운 데이터 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측 이웃이 적을 수록 모델의 복잡도 상승 → 과대적합 이웃이 전체 데이터의 개수와 같아지면 항상 가장 많은 클래스로 예측 → 과소적합 k값에 따라 가까운 이웃의 수가 결정 분류와 회귀에 모두 사용 가능(지도학습) 결정경계(Decision Boundary) : 클래스 분류하는 경계 데이터 포인트(sample) 사이 거리 값 측정 방.. 2021. 4. 29.
[ML] 머신러닝 기초 - 지도학습(Supervised Learning) 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법 스팸 메일 분류, 집 가격 예측(회귀) 분류(Classification) 미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것(y가 범주형 데이터로 구성) 클래스 레이블은 이산적이고 순서가 없음 속성 값을 입력, 클래스 값을 출력으로 하는 모델 이진분류, 다중분류 붓꽃(iris)의 세 품종 중 하나로 분류, 암 분류, 광고성 이메일 감지(이진 분류), 손글씨 인식(다중 분류) 등 회귀(Regression) 연속적인 숫자를 예측하는 것 속성 값을 입력, 연속적인 실수 값을 출력으로 하는 모델(y가 수치 데이터로 구성) 예측 값의 미묘한 차이가 크게 중요하지 않음 입력값 x와.. 2021. 4. 29.
728x90