728x90 무작위탐색방법1 [ML] 강화학습 - 강화학습(Reinforcement Learning) 지도학습처럼 정답이 있지 않고 비지도학습처럼 데이터만을 기반으로 학습하지도 않음 강화학습은 에이전트라는 존재가 환경과 상호작용하며, 이 환경에는 보상이라는 기분이 있어서 다양한 시행착오를 겪어가며 보상을 최대화하는 방향으로 학습 진행 다양한 시행착오를 통해 학습이 가능하며, 비교적 명확한 보상을 설정할 수 있는 문제를 해결하는 데 사용 2016년 3월 구글 딥마인드의 AlphaGo 강화학습이란 보상을 최대화하는 의사결정전략, 즉 순차적인 행동을 알아나가는 기법 → Markov decision process - MDP(Markov decision process) 상태, 행동, 보상함수, 상태 변환 확률, 감가율로 구성 에이전트(Agent) : 강화학습.. 2021. 5. 13. 이전 1 다음 728x90