이야기박스
인공지능) Reinforcement Learning 본문
반응형
핵심
- 상태(state) : 현재 상황을 나타내는 정보
- 보상(reward) : 행동의 좋고 나쁨을 알려주는 정보
- 상호작용 과정
==> 행동을 선택하는 기준 : 가치함수 (value function)
○ 가치 함수 (value function)
: 지금 상태에서 미래에 받을 것이라 기대하는 보상의 합
- 보상은 어떻게 정할것인가?
==> 앞으로 받을 보상을 싹 더함
--> 감가율 적용
- 하지만 아직 보상은 받지 않음. 어떻게 미래에 받을 보상을 알 것인가?
==> "가치함수"
○ 큐 함수 (Q function)
: 지금 상태에서 특정 행동을 취했을 때, 미래에 받을 것이라 기대하는 보상의 합
--> value function + (action)
○ 정책 (Policy)
: 각 상태에서 에이전트가 어떻게 행동할 것인가에 대한 정보
- 적용
==> Greedy policy 사용. 현재 스테이트의 큐 함수 중 가장 큰 것을 선택
반응형
'Computer & Data > Artificial Intelligence' 카테고리의 다른 글
Python. ChatGPT API를 활용한 간단한 예제 프로그램 (0) | 2023.04.22 |
---|---|
인공지능) Reinforcement Learning2 (0) | 2017.12.10 |
인공지능) K-means Alg (0) | 2017.12.10 |
인공지능) Convolution Networks (0) | 2017.12.10 |
인공지능) Deep Learning (0) | 2017.12.10 |