'AI' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록AI (5)

Jaehoon Jung

(4) Policy Iteration & Value Iteration

- MDP를 안다는 것은 reward function과 Transition probability를 알고 있다는 것이다. 즉, 어떤 state !!s!!에서 action !!a!!를 실행하면 next state !!s'!!이 어떻게 정해지는지와 그때 받게되는 reward를 미리 알고 있다는 것이다. 1) Model-based (Planning) 접근법 - MDP에 대한 정보를 알고 학습하는 접근법 (2단계 Bellman Expectation Equation 사용!) !!\rightarrow!! 알고있는 MDP의 정보를 이용하여 policy를 개선해나가는 과정을 planning이라고 부른다. (Tabular method) - 모든 state !!s!! or state와 action pair !!(s, a)!..

AI/강화학습 2022. 10. 22. 21:50

(3) Bellman Equation

※ MDP ≡ !!(\mathbf S,\mathbf A,\mathbf P,\mathbf R,\mathbf {\gamma)}!!가 주어졌을 때, 우리가 풀고자 하는 문제는 2가지 종류가 있다. (1) Prediction - 특정한 policy !!\pi!!가 주어졌을 때, 각 state의 value를 평가하는 문제 (2) Control - optimal policy !!\pi^*!!를 찾는 문제 !!\rightarrow!! optimal policy !!\pi^*!!를 따를 때의 value function을 optimal value function !!v^*!!라고 부른다. ※ 우리의 목적은 MDP의 optimal policy !!\pi^*!!와 optimal value function !!v^*!!을 찾..

AI/강화학습 2022. 10. 21. 17:17

(2) Markov Decision Process (MDP)

※ 강화학습에서 문제를 잘 정의하려면, 주어진 문제를 MDP (Markov Decision Process)형태로 만들어야 한다. (1) Markov Process (MP) - Markov Process는 미리 정의된 어떤 확률분포를 따라서 state와 state 사이를 이동해 다니는 여정이다. 1) state 집합 - 가능한 state들을 모두 모아놓은 집합 ex) !! S={s_0, s_1, s_2, s_3, s_4}!! 2) Transition probability matrix P - 가능한 transition probability를 모아놓은 matrix ex) transition probability !! P_{ss'} !!은 현재 state !!s!!에서 next state !!s'!!에 도착할 ..

AI/강화학습 2022. 10. 20. 21:59

(1) 강화학습

본 블로그의 강화학습 Part는 "바닥부터 배우는 강화학습" 책을 reference로 작성한 것입니다. Reinforcement Learning - "시행 착오를 통해 발전해 나가는 과정 " or "Sequential Decision making 문제에서 cumulative reward를 maximize하기 위해 시행착오를 겪으며 action을 배우는 과정" 강화학습의 목표 - Select actions to maximize total expected future reward. (하나의 time step t에서의 동작과정) (1) Agent takes an action !! a_t!! (2) Environment updates given action !! a_t!!, emits observation !!..

AI/강화학습 2022. 10. 20. 21:13

이전 Prev 1 2 Next 다음

목록AI (5)

Jaehoon Jung

티스토리툴바