yuns

Q-Learning 본문

paper study/graph

Q-Learning

yuuuun 2020. 12. 13. 16:40
반응형

mangkyu.tistory.com/61

Model-Free Algorithm

기존의 Model-Based Algorithm에서 Model은 MDP에서의 Transition Model을 의미한다. 즉, 어떤 상태에서 어떤 행동을 한다고 할 경우, 다음 상태가 될 확률

Model-Based Algorithm: 환경에 대하여 잘 알고 있으며, 우리의 행동에 따른 환경의 변화를 아는 알고리즘이며 Agent가 Action을 통하여 Expected Sum of Future reward를 최대로 하는 Policy Function을 찾고자 한다. 이때, Environment에 대하여 잘 알지 못하고, Environment가 알려주는 Next State와 Reward를 얻게 된다.

  • Exploration을 통하여 Trial and Error를 이용하여 Policy Function을 점차 학습

Q-Learning

  • Model없이 학습하는 강화학습 알고리즘 의미
  • Finite  MDP에서 Agent가 특정 상황에서 특정 행동을 하라는 최적의 Policy를 배우는 것으로, 현재 상태로부터 시작하여 모든 연속적인 단계들을 거쳤을 때, 전체 보상의 예측값을 극대화
  • 하나의 상태에서 다른 상태로의 전이가 확률적으로 일어나거나 rewardㄷ가 확률적으로 주어지는 환경에서도 별다른 변형없이 적용될 수 있다.
  • "Q"는 현재 상태에서 취한 행동에 대한 reward에 대한 quality를 상징

Q-Value

  • 어떤 State S에서 Action A를 할 경우, 그 행동이 가지는 Value를 계산하는 Q-Value
  • Discounted Factor를 사용하여 특정 Action을 취했을 때, 종료 될때까지의 reward의 총합의 예측값을 계산
  • 요약하여, 어떤 시간 $t$에서 전략인 $\pi$를 따라 행동 a를 할 때 미래의 보상들의 종합의 기대값을 의미한다.
  •  
반응형

'paper study > graph' 카테고리의 다른 글

DQN(Deep Q-Networks)  (0) 2020.12.13
Markov Decision Process  (0) 2020.12.13
[KDD20] AM-GCN: Adaptive Multi-channel Graph Convolutional Networks  (0) 2020.12.10
Comments