Q-Learning

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

관리 메뉴

yuns

Q-Learning 본문

paper study/graph

Q-Learning

yuuuun 2020. 12. 13. 16:40

mangkyu.tistory.com/61

Model-Free Algorithm

기존의 Model-Based Algorithm에서 Model은 MDP에서의 Transition Model을 의미한다. 즉, 어떤 상태에서 어떤 행동을 한다고 할 경우, 다음 상태가 될 확률

Model-Based Algorithm: 환경에 대하여 잘 알고 있으며, 우리의 행동에 따른 환경의 변화를 아는 알고리즘이며 Agent가 Action을 통하여 Expected Sum of Future reward를 최대로 하는 Policy Function을 찾고자 한다. 이때, Environment에 대하여 잘 알지 못하고, Environment가 알려주는 Next State와 Reward를 얻게 된다.

Exploration을 통하여 Trial and Error를 이용하여 Policy Function을 점차 학습

Q-Learning

Model없이 학습하는 강화학습 알고리즘 의미
Finite MDP에서 Agent가 특정 상황에서 특정 행동을 하라는 최적의 Policy를 배우는 것으로, 현재 상태로부터 시작하여 모든 연속적인 단계들을 거쳤을 때, 전체 보상의 예측값을 극대화
하나의 상태에서 다른 상태로의 전이가 확률적으로 일어나거나 rewardㄷ가 확률적으로 주어지는 환경에서도 별다른 변형없이 적용될 수 있다.
"Q"는 현재 상태에서 취한 행동에 대한 reward에 대한 quality를 상징

Q-Value

어떤 State S에서 Action A를 할 경우, 그 행동이 가지는 Value를 계산하는 Q-Value
Discounted Factor를 사용하여 특정 Action을 취했을 때, 종료 될때까지의 reward의 총합의 예측값을 계산
요약하여, 어떤 시간 $t$에서 전략인 $\pi$를 따라 행동 a를 할 때 미래의 보상들의 종합의 기대값을 의미한다.

'paper study > graph' 카테고리의 다른 글

DQN(Deep Q-Networks) (0)	2020.12.13
Markov Decision Process (0)	2020.12.13
[KDD20] AM-GCN: Adaptive Multi-channel Graph Convolutional Networks (0)	2020.12.10

'paper study/graph' Related Articles

Comments

yuns

Q-Learning 본문

Q-Learning

Model-Free Algorithm

Q-Learning

Q-Value

'paper study > graph' 카테고리의 다른 글

티스토리툴바