본문 바로가기
728x90

AI16

[ML] 일반화, 과대적합, 과소적합 - 일반화(Generalization) 훈련 세트로 학습한 모델이 테스트 세트에 대해 정확히 예측하도록 하는 것 - 과대적합(Overfitting) 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하 너무 상세하고 복잡한 모델링을 하여 훈련데이터에만 과도하게 정확히 동작하는 모델 - 과소적합(Underfitting) 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능이 저하 모델링을 너무 간단하게 하여 성능이 제대로 나오지 않는 모델 - 해결방법 주어진 훈련 데이터의 다양성 보장 → 다양한 데이터포인트를 골고루 나타내야함 일반적으로 데이터의 양이 많으면 일반화에 도움 편중된 데이터를 많이 모으는 것은 도움이 되지 않음 규제(Regularization)을 통해 모델의 복잡도를 적.. 2021. 4. 29.
[ML] KNN 알고리즘 - AND, XOR 연산 - scikit-learn 파이썬에서 쉽게 사용할 수 있는 머신러닝 프레임 워크, 라이브러리 회귀, 분류, 군집, 차원축소, 특성공학, 전처리, 교차검증, 파이프라인 등 머신러닝에 필요한 기능을 갖춤 학습을 위한 샘플 데이터 제공 - KNN(K-Nearest Neighbors, k-최근접 이웃 알고리즘) 새로운 데이터 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측 이웃이 적을 수록 모델의 복잡도 상승 → 과대적합 이웃이 전체 데이터의 개수와 같아지면 항상 가장 많은 클래스로 예측 → 과소적합 k값에 따라 가까운 이웃의 수가 결정 분류와 회귀에 모두 사용 가능(지도학습) 결정경계(Decision Boundary) : 클래스 분류하는 경계 데이터 포인트(sample) 사이 거리 값 측정 방.. 2021. 4. 29.
[ML] 머신러닝 기초 - 지도학습(Supervised Learning) 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법 스팸 메일 분류, 집 가격 예측(회귀) 분류(Classification) 미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것(y가 범주형 데이터로 구성) 클래스 레이블은 이산적이고 순서가 없음 속성 값을 입력, 클래스 값을 출력으로 하는 모델 이진분류, 다중분류 붓꽃(iris)의 세 품종 중 하나로 분류, 암 분류, 광고성 이메일 감지(이진 분류), 손글씨 인식(다중 분류) 등 회귀(Regression) 연속적인 숫자를 예측하는 것 속성 값을 입력, 연속적인 실수 값을 출력으로 하는 모델(y가 수치 데이터로 구성) 예측 값의 미묘한 차이가 크게 중요하지 않음 입력값 x와.. 2021. 4. 29.
[AI] 인공지능 기초 - 인공지능의 종류 약한 인공지능 (Weak AI) 학습을 통해 문제를 해결 주어진 조건 아래서만 작동 → 사람을 흉내내는 수준 자율자동차, 구글번역, 페이스북 추천 등 구글 AlphaGo, IBM Watson, 아마존 Alexa, Apple Siri 등 강한 인공지능 (Strong AI) 사고를 통해 문제 해결 사람과 같은 지능 (추론, 문제해결, 계획, 의사소통, 감정, 지혜, 양심) 초 인공지능 (Super AI) 창의력을 통해 문제 해결 모든 영역에서 인간을 뛰어넘는 인공지능 - 인공지능(Artificial Intelligence) : 컴퓨터가 인간의 행동을 모방할 수 있게 해주는 기술 - 머신러닝(Machine Learning) : 통계 기법을 사용하여 기계가 학습을 통해 기능을 향상시킬 수 있.. 2021. 4. 29.
728x90