일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 그래프신경망
- 바닥부터 배우는 강화학습
- 그래프뉴럴네트워크
- gnn
- 벨만방정식
- 정보량
- markov decision process
- 마르코프
- markov reward process
- Monte-calro
- policy iteration
- joint entropy
- 결합 엔트로피
- conditional entropy
- 조건부 엔트로피
- TD target
- Temporal Difference
- Bellman Optimality Equation
- linearly independent
- 벨만최적방정식
- n-step TD
- Bellman Expectation Equation
- linear combination
- Value Iteration
- 강화학습
- 마르코프 프로세스
- graph nueral network
- markov process
- Bellman equation
- 벨만기대방정식
- Today
- Total
목록AI (5)
Jaehoon Jung

- MDP를 안다는 것은 reward function과 Transition probability를 알고 있다는 것이다. 즉, 어떤 state !!s!!에서 action !!a!!를 실행하면 next state !!s'!!이 어떻게 정해지는지와 그때 받게되는 reward를 미리 알고 있다는 것이다. 1) Model-based (Planning) 접근법 - MDP에 대한 정보를 알고 학습하는 접근법 (2단계 Bellman Expectation Equation 사용!) !!\rightarrow!! 알고있는 MDP의 정보를 이용하여 policy를 개선해나가는 과정을 planning이라고 부른다. (Tabular method) - 모든 state !!s!! or state와 action pair !!(s, a)!..

※ MDP ≡ !!(\mathbf S,\mathbf A,\mathbf P,\mathbf R,\mathbf {\gamma)}!!가 주어졌을 때, 우리가 풀고자 하는 문제는 2가지 종류가 있다. (1) Prediction - 특정한 policy !!\pi!!가 주어졌을 때, 각 state의 value를 평가하는 문제 (2) Control - optimal policy !!\pi^*!!를 찾는 문제 !!\rightarrow!! optimal policy !!\pi^*!!를 따를 때의 value function을 optimal value function !!v^*!!라고 부른다. ※ 우리의 목적은 MDP의 optimal policy !!\pi^*!!와 optimal value function !!v^*!!을 찾..

※ 강화학습에서 문제를 잘 정의하려면, 주어진 문제를 MDP (Markov Decision Process)형태로 만들어야 한다. (1) Markov Process (MP) - Markov Process는 미리 정의된 어떤 확률분포를 따라서 state와 state 사이를 이동해 다니는 여정이다. 1) state 집합 - 가능한 state들을 모두 모아놓은 집합 ex) !! S={s_0, s_1, s_2, s_3, s_4}!! 2) Transition probability matrix P - 가능한 transition probability를 모아놓은 matrix ex) transition probability !! P_{ss'} !!은 현재 state !!s!!에서 next state !!s'!!에 도착할 ..

본 블로그의 강화학습 Part는 "바닥부터 배우는 강화학습" 책을 reference로 작성한 것입니다. Reinforcement Learning - "시행 착오를 통해 발전해 나가는 과정 " or "Sequential Decision making 문제에서 cumulative reward를 maximize하기 위해 시행착오를 겪으며 action을 배우는 과정" 강화학습의 목표 - Select actions to maximize total expected future reward. (하나의 time step t에서의 동작과정) (1) Agent takes an action !! a_t!! (2) Environment updates given action !! a_t!!, emits observation !!..