yuns
Q-Learning 본문
반응형
Model-Free Algorithm
기존의 Model-Based Algorithm에서 Model은 MDP에서의 Transition Model을 의미한다. 즉, 어떤 상태에서 어떤 행동을 한다고 할 경우, 다음 상태가 될 확률
Model-Based Algorithm: 환경에 대하여 잘 알고 있으며, 우리의 행동에 따른 환경의 변화를 아는 알고리즘이며 Agent가 Action을 통하여 Expected Sum of Future reward를 최대로 하는 Policy Function을 찾고자 한다. 이때, Environment에 대하여 잘 알지 못하고, Environment가 알려주는 Next State와 Reward를 얻게 된다.
- Exploration을 통하여 Trial and Error를 이용하여 Policy Function을 점차 학습
Q-Learning
- Model없이 학습하는 강화학습 알고리즘 의미
- Finite MDP에서 Agent가 특정 상황에서 특정 행동을 하라는 최적의 Policy를 배우는 것으로, 현재 상태로부터 시작하여 모든 연속적인 단계들을 거쳤을 때, 전체 보상의 예측값을 극대화
- 하나의 상태에서 다른 상태로의 전이가 확률적으로 일어나거나 rewardㄷ가 확률적으로 주어지는 환경에서도 별다른 변형없이 적용될 수 있다.
- "Q"는 현재 상태에서 취한 행동에 대한 reward에 대한 quality를 상징
Q-Value
- 어떤 State S에서 Action A를 할 경우, 그 행동이 가지는 Value를 계산하는 Q-Value
- Discounted Factor를 사용하여 특정 Action을 취했을 때, 종료 될때까지의 reward의 총합의 예측값을 계산
- 요약하여, 어떤 시간 $t$에서 전략인 $\pi$를 따라 행동 a를 할 때 미래의 보상들의 종합의 기대값을 의미한다.
반응형
'paper study > graph' 카테고리의 다른 글
DQN(Deep Q-Networks) (0) | 2020.12.13 |
---|---|
Markov Decision Process (0) | 2020.12.13 |
[KDD20] AM-GCN: Adaptive Multi-channel Graph Convolutional Networks (0) | 2020.12.10 |
Comments