이야기박스

인공지능) Reinforcement Learning 본문

Computer & Data/Artificial Intelligence

인공지능) Reinforcement Learning

박스님 2017. 12. 10. 17:18
반응형

핵심

- 상태(state) : 현재 상황을 나타내는 정보

- 보상(reward) : 행동의 좋고 나쁨을 알려주는 정보


- 상호작용 과정



==> 행동을 선택하는 기준 : 가치함수 (value function)




가치 함수 (value function)

: 지금 상태에서 미래에 받을 것이라 기대하는 보상의 합


- 보상은 어떻게 정할것인가?

==> 앞으로 받을 보상을 싹 더함

--> 감가율 적용



- 하지만 아직 보상은 받지 않음. 어떻게 미래에 받을 보상을 알 것인가?

==> "가치함수"






○ 큐 함수 (Q function)

: 지금 상태에서 특정 행동을 취했을 때, 미래에 받을 것이라 기대하는 보상의 합

--> value function + (action)





○ 정책 (Policy)

: 각 상태에서 에이전트가 어떻게 행동할 것인가에 대한 정보




- 적용




==> Greedy policy 사용. 현재 스테이트의 큐 함수 중 가장 큰 것을 선택




반응형