본문 바로가기
728x90

머신러닝17

[ML] 군집분석(계층 군집, 밀집도 기반 군집) - 계층 군집(Hierarchical clustering) 덴드로그램(Dendrogram)을 그릴 수 있음 의미 있는 분류 체계를 만들어줌 → 군집 결과 이해, 설명에 적합 클러스터의 수를 미리 정하지 않아도 됨 병합 계층 군집(Agglomerative hierarchical clustering) 클러스터 당 하나의 데이터에서 시작하여, 모든 데이터가 하나의 클러스터에 속할 때까지 가장 가까운 클러스터를 병합해 나감 단일 연결 클러스터 쌍에서 가장 비슷한, 즉 가장 가까운 데이터 간의 거리를 계산 거리의 값이 가장 작은 두 클러스터를 하나로 합침 완전 연결 클러스터 쌍에서 가장 비슷하지 않은, 즉 가장 멀리 있는 데이터를 찾아 거리를 계산 가장 가까운 두 클러스터를 합침 평균 연결 : 두 클러스터에 있는.. 2021. 5. 12.
[ML] 군집분석(K-means, K-means++) - 정답이 없는 문제를 해결하기 위한 알고리즘 → 비지도학습 '군집분석' - 군집분석(Clustering Analysis) ex) 쇼핑몰에서 페이지 체류 시간, 구매 금액대 등을 토대로 소비자 유형 그룹을 나누고(군집 설정), 새로운 소비자가 쇼핑몰에 들어왔을 때 행동을 바탕으로 앞서 설정해놓은 그룹으로 할당, 비슷한 소비자가 구매한 상품 노출하여 제품 구매율을 높힘 군집은 정답을 모르는 데이터 안에서 숨겨진 구조를 찾는 것 클래스 레이블이 없는 데이터를 특정 군집으로 묶고자 할 때 활용 계층 군집, 밀집도 기반 군집(클러스터 모양이 원형이 아닐 때 사용) - K-평균(K-means) 매우 쉬운 구현성, 높은 계산 효율성 → 학계와 산업현장을 가리지 않고 활약 프로토타입 기반 군집 : 각 클러스터가 하나.. 2021. 5. 11.
[ML] 머신러닝 모델(결정 트리 학습, K-근접 이웃) - 결정 트리 학습(Decision tree) 결과에 대한 설명이 중요할 때 사용 훈련 데이터에 있는 변수, 즉 특성을 기반으로 새로운 샘플의 클래스 레이블을 추정할 수 있도록 일련의 질문 학습 범주형 변수, 실수형 변수 트리의 루트(root)에서부터 시작해 정보 이득(Information Gain, IG)이란 값이 최대가 되는 특성으로 데이터를 나눔 위의 과정을 리프 노드(leaf node)가 순수해질 때까지(불순도가 0에 수렴할 때 까지, 하나의 클래스만을 가진 노드가 될 때까지) 모든 자식 노드에서 분할 작업 반복 분할 작업을 계속 반복하여 깊은 트리가 만들어지는데, 이는 과적합 우려 → 트리 최대의 깊이 제한(트리 가지치기 - pruning) 목적함수의 목적 : 가장 정보가 풍부한 특성으로 노드를.. 2021. 5. 11.
[ML] 머신러닝 모델(퍼셉트론, 로지스틱 회귀, 서포트 벡터 머신) - 퍼셉트론(Perceptron) 여러 개의 입력을 받아 각각의 값에 가중치를 곱한 후, 모두 더한 것이 출력되는 모델 신경망이나 딥러닝의 뿌리가 되는 모델 선형 분리 불가능 문제에는 수렴하지 못함 - 로지스틱 회귀 : 분류를 확률로 생각하는 방식 퍼셉트론의 간단함은 유지된 채, 선형 분리 불가능한 문제에서도 적용 가능 어느 클래스에 분류 되는 지 구하는것 이를 구하기 위해 함수가 필요 → 로지스틱 시그모이드 함수(S자 모양) 시그모이드 함수 모양을 파이썬으로 구현 import matplotlib.pyplot as plt import numpy as np # 시그모이드 함수 정의 def sigmoid(z) : return 1.0 / (1.0 + np.exp(-z)) # exp : numpy의 지수함수 z.. 2021. 5. 11.
728x90