본문 바로가기
728x90

강화학습2

[ML] 강화학습 - 강화학습(Reinforcement Learning) 지도학습처럼 정답이 있지 않고 비지도학습처럼 데이터만을 기반으로 학습하지도 않음 강화학습은 에이전트라는 존재가 환경과 상호작용하며, 이 환경에는 보상이라는 기분이 있어서 다양한 시행착오를 겪어가며 보상을 최대화하는 방향으로 학습 진행 다양한 시행착오를 통해 학습이 가능하며, 비교적 명확한 보상을 설정할 수 있는 문제를 해결하는 데 사용 2016년 3월 구글 딥마인드의 AlphaGo 강화학습이란 보상을 최대화하는 의사결정전략, 즉 순차적인 행동을 알아나가는 기법 → Markov decision process - MDP(Markov decision process) 상태, 행동, 보상함수, 상태 변환 확률, 감가율로 구성 에이전트(Agent) : 강화학습.. 2021. 5. 13.
[ML] 머신러닝 기초 - 지도학습(Supervised Learning) 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법 스팸 메일 분류, 집 가격 예측(회귀) 분류(Classification) 미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것(y가 범주형 데이터로 구성) 클래스 레이블은 이산적이고 순서가 없음 속성 값을 입력, 클래스 값을 출력으로 하는 모델 이진분류, 다중분류 붓꽃(iris)의 세 품종 중 하나로 분류, 암 분류, 광고성 이메일 감지(이진 분류), 손글씨 인식(다중 분류) 등 회귀(Regression) 연속적인 숫자를 예측하는 것 속성 값을 입력, 연속적인 실수 값을 출력으로 하는 모델(y가 수치 데이터로 구성) 예측 값의 미묘한 차이가 크게 중요하지 않음 입력값 x와.. 2021. 4. 29.
728x90