본문 바로가기

Deep Learning/RL6

[모두RL-②] Dummy Q-Learning (table) 김성훈 교수님의 모두를 위한 RL 강좌 Lecture 3을 듣고 정리하였다. Dummy Q-learning (table) 앞에서 Agent가 아무런 정보가 없기 때문에 운이 좋아서 H를 안 밟고 Goal까지 가는 방법밖에 없다고 했다. 즉, Action을 할 때마다 잘했는지 못했는지 알려주는게 아니라 Goal에 도착해야 reward를 받는다. 이때 바로바로 정보를 알려주는 역할을 하는 것이 “Q”이다. (김성훈 교수님은 “Q” 형님에게 물어봐라고ㅋㅋㅋ 뭔가 웃겼다) Q function Q function은 아래와 같이 입력으로 state와 action을 받고 quality(reward)를 내보낸다. Q(state, action) Q(s1, left): 0 Q(s1, right): 0.5 Q(s1, up).. 2022. 3. 6.
[모두RL-①] 강화학습 소개 강화학습. 딥러닝, 머신러닝 공부를 시작할 때 항상 나오는 자료인 머신러닝 구분 3가지에서부터 등장하는 강화학습.. (머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 분류된다.) 전에 논문을 읽다가도 NAS(Neural Architecture Search) with Reinforcement Learning이라고 강화학습을 이용하여 데이터에 적합한 신경망 구조를 찾는 모델을 본 적이 있었다. 하지만 “강화학습=어려운거“라고 생각하고 항상 넘겨버렸다. 이랬던 내가... 강화학습을 이용하여 모델로 연구를 진행하게 되었다. 이참에 강화학습도 배워보고 접하면 좋을 것 같다는 생각이 들었다. 이것저것 도전해보고 싶은 나에겐 좋은 기회여서 바로 도전해보겠다고 했다!! 열심히 공부해서 완벽히 이해하고.. 구현도 하.. 2022. 3. 4.