본문 바로가기

Deep Learning/RL6

[모두RL-⑥] DQN 2022.03.07 - [Deep Learning/RL] - [모두RL-⑤] Q-Network에 이어서 김성훈 교수님의 모두를 위한 RL강좌 lecture 7을 듣고 작성하였다. 이번 강의에서는 CartPole이라는 게임으로 진행이 된다. 카트(cart)가 있고 카트에는 막대기(pole)이 연결되어있다. 카트를 오른쪽(+1) 왼쪽(-1)으로 움직여서(action) 막대기가 넘어지지 않도록 하는 게임이다. 앞의 게시물에서 완성한 Q-network는 unstable하다. 이유 1. Correlations between samples 2. Non-stationary targets 1. Correlations between samples 위의 그림처럼 전체의 데이터를 모두 보지 않고, 몇 개의 인접한 sampl.. 2022. 3. 7.
[모두RL-⑤] Q-Network 2022.03.07 - [Deep Learning/RL] - [모두RL-④] Stochastic (non-deterministic)에 이어서 김성훈 교수님의 모두를 위한 RL강좌 lecture 6를 듣고 작성하였다. 만약 Q table이 100x100 table이라면, 혹은 그보다 더 많은 pixel을 가진다면? 연산량이 어마어마할 것이다. 그래서 제안된 기법이 Q-Network이다. Q-function approximation 테이블을 쓰지 않고, 테이블보다 더 작은 수의 뉴런을 사용해서 이런 네트워크를 만들면 어떤 값이든 출력할텐데... 그 출력하는 값을 우리가 원하는 값으로 approximation하면 되지 않을까? Q-table과 다르게 state(s)만 input으로 사용한다. 그리고 각 act.. 2022. 3. 7.
[모두RL-④] Stochastic (non-deterministic) 2022.03.07 - [Deep Learning/RL] - [모두RL-③] E&E과 discounted future reward에 이어서 김성훈 교수님의 모두를 위한 RL강좌 lecture 5를 듣고 작성하였다. 지금까지 Frozen Lake에서 Q learning을 하였을때 조건은 deterministic한 환경이었다. 즉, 항상 일정한 결과가 나오고 내가 하려는 a action을 하면 a를 행동한다. non-deterministic, stochastic하다는 것은 a라는 행동을 한다고 해서 a라는 행동을 못할수도 있다는 것을 의미한다. 그리고 똑같이 행동을 해도 똑같은 위치에 못갈수도 있다. Frozen Lake에 바람이 많이 불어서 Agent가 오른쪽으로 가려고 하는데 바람 때문에 못가고 왼쪽이나.. 2022. 3. 7.
[모두RL-③] E&E과 discounted future reward 2022.03.06 - [Deep Learning/RL] - [모두RL-②] Dummy Q-Learning (table)에 이어서 김성훈 교수님의 모두를 위한 RL 강좌 lecture 4를 듣고 정리하였다. 이전의 Dummy Q-Learning 알고리즘만으로는 최적의 경로를 찾지 못할 수도 있다. 만약, 처음에 아래의 파란색 경로로 Goal에 도착했다고 하면 이전의 알고리즘은 몇 번을 반복해도 파란색 경로로 길을 찾을 것이다. 하지만 파란색 경로보다 빨간색 경로가 더 최적의 경로이다. 이번 강의는 항상 최단 거리의 경로를 찾으려면 어떻게 해야할까?에 대한 내용이었다. Exploit vs Exploration 현재 있는 값을 이용 vs 모험, 안 가본 길로 가본다. 이전 알고리즘에서 action a를 선택.. 2022. 3. 7.