목록전체 글 (409)
이야기박스
도봉학사를 나왔다. 2011~12 2016~2017 4년간 ㄱㅅ 도봉학사를 고려하시는 분들 밥이 맛있습니다. 교통도 편하구요. 그리고 마지막 수업도 끝났다. 선물 감사합니다 ㅋㅋㅋㅋ.. 돼지 나보고 만든건 아니겠지
○ 강화학습의 해결책1. Dynamic Programmin: 계산을 통하여 2. Monte Carlo: 끝까지 진행 --> 가치 함수 업데이트 3. Temporal Difference Learning: 시간차 ( 한 수 앞의 상황을 보는 것 ) ○ DP- Policy Iteration : 정책 반복, 갱신- Value Iteration : 값 반복, 갱신 ○ Monte Carlo- 함수 갱신 방법 - 새로운 함수 - 알파 = 학습율 , 오차율 --> 오차율을 두는 이유 : 이 정답이 지금까지 데이터로서는 정답이지만, 그것이 전역적으로 진짜 정답이라는 보장이 없기 때문 - 행동 선택 정책1) Random Policy2) Greedy Policy3) e-Greedy Policy==> e 값을 통하여 rand..
핵심- 상태(state) : 현재 상황을 나타내는 정보- 보상(reward) : 행동의 좋고 나쁨을 알려주는 정보 - 상호작용 과정 ==> 행동을 선택하는 기준 : 가치함수 (value function) ○ 가치 함수 (value function): 지금 상태에서 미래에 받을 것이라 기대하는 보상의 합 - 보상은 어떻게 정할것인가?==> 앞으로 받을 보상을 싹 더함--> 감가율 적용 - 하지만 아직 보상은 받지 않음. 어떻게 미래에 받을 보상을 알 것인가?==> "가치함수" ○ 큐 함수 (Q function): 지금 상태에서 특정 행동을 취했을 때, 미래에 받을 것이라 기대하는 보상의 합--> value function + (action) ○ 정책 (Policy): 각 상태에서 에이전트가 어떻게 행동할 ..
Clustering(Grouping) 의 대표주자 중 하나 아래 예로 들면 ○ C1, C2의 중심점을 찾는 것--> = 각각의 클러스터의 중심점을 찾는 것(k개의 클러스터) ○ 과정1) Random C1, C2 초기화2) Assign to Clusters (클러스터 배정)3) Center Change ----> 2)로 반복 ○ 리뷰- 최적의 솔루션이라는 보장이 없음- 공간 구분하는 방식은 '선'이 된다. (왜냐하면, 중심점으로부터 거리를 측정하여 구분하기 때문) - 쟁점 : k의 값은 어떻게 정할 것인가?--> Elbow method--> 경험적으로 elbow 근처가 좋다고 알려져 있음.