목록paper study/graph (4)
yuns
mangkyu.tistory.com/61 Model-Free Algorithm 기존의 Model-Based Algorithm에서 Model은 MDP에서의 Transition Model을 의미한다. 즉, 어떤 상태에서 어떤 행동을 한다고 할 경우, 다음 상태가 될 확률 Model-Based Algorithm: 환경에 대하여 잘 알고 있으며, 우리의 행동에 따른 환경의 변화를 아는 알고리즘이며 Agent가 Action을 통하여 Expected Sum of Future reward를 최대로 하는 Policy Function을 찾고자 한다. 이때, Environment에 대하여 잘 알지 못하고, Environment가 알려주는 Next State와 Reward를 얻게 된다. Exploration을 통하여 Tri..
https://sumniya.tistory.com/18 dnddnjs.gitbooks.io/rl/content/neural_network.html DeepMind "Playing Atari with Deep Reinforcement Learning" What is DQN? 강화학습에서 agent는 환경을 MDP를 통하여 이해 하는데 table형태로 학습을 모든 state에 대하여 action-value function을 저장하고 update시켜나가면 학습이 상당히 느려진다. 이에 따라, nonlinear function apprximator로 approximate시켜 학습한다. Action-Value Function(q-value)를 approximate하는 방법으로 DNN이 택한 RL은 Deep Rei..
강화학습은 MDP의 문제를 푸는 것 https://sumniya.tistory.com/3 참조 Markov Process의 정의 확률론에서 Markov Process는 메모리를 갖지 않는 이산 시간 확률 과정 확률 과정: 시간이 진행함에 따라 상태가 확률적으로 변화하는 과정 확률 분포를 따르는 random variable 가 discrete한 time interval 마다 값을 생성해내는 것을 의미 time interval이 discrete하고 현재의 state가 이전 state에만 영향을 받는 확률 과정을 Markov Process라 함 Markov Property 어떤 시간에 특정 state를 도달하든 그 이전에 어떤 state를 거쳐왔든 다음 state로 갈 확률은 항상 같다 $Pr(S_{t+1} ..
Author: Xiao Wang, Meiqi Zhu, Deyu Bo, Peng Cui, Chuan Shi, Jian Pei Introduction Graph Convolutional Networks(GCNs): a class of neural networks designed to learn graph data. applications: social networks, biology networks, citation networks. Message-passing manner: feature aggregation node aggregates feature information from its topological neighbors in each convolutional layer. (이웃 정보로부터 featu..