Markov Decision Process

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

관리 메뉴

yuns

Markov Decision Process 본문

paper study/graph

Markov Decision Process

yuuuun 2020. 12. 13. 12:13

강화학습은 MDP의 문제를 푸는 것

https://sumniya.tistory.com/3 참조

Markov Process의 정의

확률론에서 Markov Process는 메모리를 갖지 않는 이산 시간 확률 과정
확률 과정: 시간이 진행함에 따라 상태가 확률적으로 변화하는 과정
확률 분포를 따르는 random variable 가 discrete한 time interval 마다 값을 생성해내는 것을 의미
time interval이 discrete하고 현재의 state가 이전 state에만 영향을 받는 확률 과정을 Markov Process라 함

Markov Property

어떤 시간에 특정 state를 도달하든 그 이전에 어떤 state를 거쳐왔든 다음 state로 갈 확률은 항상 같다
$Pr(S_{t+1} = s' | S_0, S_1, \cdots, S_{t-1}, S_t) = Pr(S_{t+1} = s' | S_t)$
0 ~ t시간 까지의 여러 state를 거쳐오고 (t+1) 시간에 s'라는 state에 도달할 활귤이 바로 직전 t시간의 state에서 state $s'$로 올 확률은 같다.

State Transition Probability Matrix

State들 간에 이동하는 것을 transition이라 하며 이를 확률로 표현
state transition probability: $P_{ss'} = Pr(S_{t+1} = s' | S_t = s)$

Markov Reward Process(MRP)

Markov Process에 Reward의 개념을 추가한 것
현재 state에서 다음 state로 가는 것이 얼마나 가치있는지 알기 위하여 도입한 Reward의 개념
$R_s = E[r_{t+1} | S_t = s]$: state를 받아 reward의 기대값으로 mapping하는 함수
바로 다음 시간인 (t+1)에 얻을 수 있는 보상이기 때문에 immediate reward라 함

Discounting Factor

현재의 state의 정확한 가치를 구하기 위해서 어느 시점에서 reward를 얻는 시점이 중요
discounting factor $\gamma$ 는 [0, 1]의 값으로 미래가치를 현재 시점에서의 가치로 변환

Return

먼 미래에 얻을 수 있는 total reward에 대해 고려하게 되고 이를 Return이라 함 $$G_t = R_{t+1} + \gamma R_{t+2} + \cdots = \sum_{k=0} ^\infty \gamma^k R_{t+k+1}$$
$R$: immediate reward로서 현재가치로 환산하여 합한 것

Value Function of MRP

state의 가치를 표현하는 함수를 Value Function
어떠한 state에서 미래를 얻을 수 있는 모든 reward를 더한 것의 expectation $$V(s) = E[G_t | S_t = s]$$
state s 에서 이동 가능한 state들의 scenario들을 따라 그 state들의 reward에 discounting factor를 적용하여 모두 더한 값이 state s에서의 가치 $V(s)$.

Markov Decision Process(MDP)

MP + reward = MRP, MRP + action = MDP

Action

state에서 action을 하여 state가 변함

Policy

state에서 action을 mapping하는 함수
해당 state에서 어떤 action을 할 지를 정하는 것을 policy라 함 $$\pi (a | s) = Pr(A_t = a | S_t = s)$$

Value Function of MDP

MDP의 process
- t시점에 state s에 놓인 agent가 policy에 따라 action a 수행
- state s에서 action a를 수행하면 reward를 받음
- transition probability에 따라 state s'로 전이
State-Value Function
- state에서 선택하는 policy에 따라 그 action이 달라지고 이후 state가 달라지기 때문에 policy에 영향을 받음 $$V_\pi (s) = E_\pi [G_t | S_t = s]$$
- MDP에서 state s의 가치는 해당 state에서 policy에 얻게 되는 reward들의 총합(return)을 나타냄
Action-Value Function
- agent가 하는 action에 대하여 value를 판단 $$q_\pi (s, a) = E_\pi [G_t | S_t = s, A_t = a]$$
- action a의 가치는 State s 에서 policy에 따라 action을 취했을 때, 얻게 되는 reward들의 총합을 나타냄

'paper study > graph' 카테고리의 다른 글

Q-Learning (0)	2020.12.13
DQN(Deep Q-Networks) (0)	2020.12.13
[KDD20] AM-GCN: Adaptive Multi-channel Graph Convolutional Networks (0)	2020.12.10

'paper study/graph' Related Articles

Comments

yuns

Markov Decision Process 본문

Markov Decision Process

Markov Process의 정의

Markov Property

State Transition Probability Matrix

Markov Reward Process(MRP)

Discounting Factor

Return

Value Function of MRP

Markov Decision Process(MDP)

Value Function of MDP

'paper study > graph' 카테고리의 다른 글

티스토리툴바