Markov Decision Process

paper study/graph

yuuuun 2020. 12. 13. 12:13

강화학습은 MDP의 문제를 푸는 것

어떤 시간에 특정 state를 도달하든 그 이전에 어떤 state를 거쳐왔든 다음 state로 갈 확률은 항상 같다
$Pr(S_{t+1} = s' | S_0, S_1, \cdots, S_{t-1}, S_t) = Pr(S_{t+1} = s' | S_t)$
0 ~ t시간 까지의 여러 state를 거쳐오고 (t+1) 시간에 s'라는 state에 도달할 활귤이 바로 직전 t시간의 state에서 state $s'$로 올 확률은 같다.

먼 미래에 얻을 수 있는 total reward에 대해 고려하게 되고 이를 Return이라 함 $$G_t = R_{t+1} + \gamma R_{t+2} + \cdots = \sum_{k=0} ^\infty \gamma^k R_{t+k+1}$$
$R$: immediate reward로서 현재가치로 환산하여 합한 것

state의 가치를 표현하는 함수를 Value Function
어떠한 state에서 미래를 얻을 수 있는 모든 reward를 더한 것의 expectation $$V(s) = E[G_t | S_t = s]$$
state s 에서 이동 가능한 state들의 scenario들을 따라 그 state들의 reward에 discounting factor를 적용하여 모두 더한 값이 state s에서의 가치 $V(s)$.

MP + reward = MRP, MRP + action = MDP

Action

Policy

state에서 action을 mapping하는 함수
해당 state에서 어떤 action을 할 지를 정하는 것을 policy라 함 $$\pi (a | s) = Pr(A_t = a | S_t = s)$$

MDP의 process
- t시점에 state s에 놓인 agent가 policy에 따라 action a 수행
- state s에서 action a를 수행하면 reward를 받음
- transition probability에 따라 state s'로 전이
State-Value Function
- state에서 선택하는 policy에 따라 그 action이 달라지고 이후 state가 달라지기 때문에 policy에 영향을 받음 $$V_\pi (s) = E_\pi [G_t | S_t = s]$$
- MDP에서 state s의 가치는 해당 state에서 policy에 얻게 되는 reward들의 총합(return)을 나타냄
Action-Value Function
- agent가 하는 action에 대하여 value를 판단 $$q_\pi (s, a) = E_\pi [G_t | S_t = s, A_t = a]$$
- action a의 가치는 State s 에서 policy에 따라 action을 취했을 때, 얻게 되는 reward들의 총합을 나타냄