728x90 분류 전체보기279 [Python] 정규 분포, 확률 분포, 사분위 수 - 과거의 인공지능, 머신러닝 기반 시스템은 주로 확률과 관련 있었음 -통계학(Statistics) : 수치 데이터의 수집, 분석, 해석, 표현 등을 다루는 수학의 한 분야 통계학 기술 통계학 추론 통계학 연속형 데이터 범주형 데이터 단서 > 가설 설립/검정 > 문제 해결 일부 연령층, 일부 지역 주민, 혹은 무작위 선정 통해 표본 선정 > 통계분석 실시 > 모집합(전 국민)에 대한 결과 유추 - 가설 검정 - 수치로 되어있는 특징들 계산 - 각 데이터 간의 상관관계 분석 키/나이/가격 데이터 바탕으로 평균/표준편자와 같은 형식으로 요약 이름/종족/성별 데이터 바탕으로 빈도/백분율과 같은 자료 형식으로 요약 - 통계 모델링 : 데이터에 통계학을 적용하여 변수의 유의성을 분석함으로써 방대한 양의 데이터에 .. 2021. 5. 10. [ML] 붓꽃의 품종 분류(지도학습 / 분류) import numpy as np import pandas as pd import matplotlib.pyplot as plt - Data Collection from sklearn.datasets import load_iris iris_dataset = load_iris() iris_dataset.keys() # 데이터셋에 대한 설명 print(iris_dataset['DESCR'][:193]+'\n') # 예측하려는 붓꽃의 품종 이름 iris_dataset['target_names'] # 특성 # sepal은 꽃받침, petal은 꽃잎 iris_dataset['feature_names'] # 실제 데이터는 target과 data에 들어있음 # 샘플의 수 확인 iris_dataset['data'].sh.. 2021. 4. 29. [ML] KNN - bmi model import pandas as pd import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklearn import metrics from sklearn.metrics import classification_report # 한글폰트 설정 from matplotlib import font_manager, rc font_name = font_manager.FontProperties(fname='C:/Windows/Fonts/malgun.ttf').get_name() rc('font', family=font_name) - Data Collection bmi = pd.read_csv('./bmi_500.csv.. 2021. 4. 29. [ML] 일반화, 과대적합, 과소적합 - 일반화(Generalization) 훈련 세트로 학습한 모델이 테스트 세트에 대해 정확히 예측하도록 하는 것 - 과대적합(Overfitting) 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하 너무 상세하고 복잡한 모델링을 하여 훈련데이터에만 과도하게 정확히 동작하는 모델 - 과소적합(Underfitting) 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능이 저하 모델링을 너무 간단하게 하여 성능이 제대로 나오지 않는 모델 - 해결방법 주어진 훈련 데이터의 다양성 보장 → 다양한 데이터포인트를 골고루 나타내야함 일반적으로 데이터의 양이 많으면 일반화에 도움 편중된 데이터를 많이 모으는 것은 도움이 되지 않음 규제(Regularization)을 통해 모델의 복잡도를 적.. 2021. 4. 29. 이전 1 ··· 59 60 61 62 63 64 65 ··· 70 다음 728x90