본문 바로가기
Deep Learning/RL

[모두RL-①] 강화학습 소개

by 룰루셩 2022. 3. 4.

강화학습.

딥러닝, 머신러닝 공부를 시작할 때 항상 나오는 자료인 머신러닝 구분 3가지에서부터 등장하는 강화학습.. (머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 분류된다.)

전에 논문을 읽다가도 NAS(Neural Architecture Search) with Reinforcement Learning이라고 강화학습을 이용하여 데이터에 적합한 신경망 구조를 찾는 모델을 본 적이 있었다.

 

하지만 “강화학습=어려운거“라고 생각하고 항상 넘겨버렸다.

 

이랬던 내가... 강화학습을 이용하여 모델로 연구를 진행하게 되었다.

이참에 강화학습도 배워보고 접하면 좋을 것 같다는 생각이 들었다. 이것저것 도전해보고 싶은 나에겐 좋은 기회여서 바로 도전해보겠다고 했다!! 열심히 공부해서 완벽히 이해하고.. 구현도 하고.. 결과도 좋게 나오면 좋겠다ㅎㅎ 화이팅

 

 

김성훈 교수님의 모두를 위한 RL 강좌를 먼저 듣는 것으로 나의 첫 강화학습 공부를 시작했다.

그리고 강화학습을 공부 방법, 공부 자료 등이 공유된 깃허브가 있어서 이것도 먼저 쭉 보고 시작했다.

 


 

강화학습 INTRO

우리는 모든 것을 가르침을 받지 않는다. 환경과의 상호작용을 통해서 배우곤 한다. 강화학습은 이런 아이디어로 시작됐다.

💡 Agent, Environment, Action, State, Reward 라는 용어가 계속 등장할 것이다!

actor(Agent)env에서 어떤 action을 하고
action을 할 때마다 state(상태)가 업데이트 된다.
모든 action이 끝난 뒤에 운이 좋으면 reward를 받게된다.

 

Frozen Lake World

김성훈 교수님께서는 OpenAI의 gym이라는 환경에서 제공하는 게임을 가지고 강화학습에 대해 설명해주신다. 여기서는 Frozen Lake World, Cart Pole 이라는 게임을 통해 알려주신다.

※ Gym: openAI 에서 간단한 게임들을 통해서 강화학습을 테스트 할 수 있는 Gym 이라는 환경을 제공하고 있다. (출처: 대소니 블로그)

 

Frozen Lake World 게임 규칙은 이 블로그에 잘 설명이 되어 있다.

Agent가 어떤 action을 하면 environment가 그 다음에 Agent가 어디에 있는지 (state) 알려주고 reward를 알려준다. G에 도달해야 reward가 1로 나온다.

출처: 김성훈 교수님 유튜브, Frozen Lake World

실제로 컴퓨터 입장에서는 저 알파벳이 써있지 않다. 그래서 어디로 가야하는지, 어디가 H인지 모른다!!

심지어 내가 오른쪽으로 움직인것이 잘한 것인지 왼쪽으로 가야 잘한 것인지에 대해서도 알려주지 않는다. G에 도달해야 1이 나올 뿐이다. 지금 이 상태에서는 컴퓨터가 운이 좋아서 H를 안 밟고 무사히 G에 도달하는 방법 밖에 없다. 우리는 아무런 정보가 없기 때문이다.

'Deep Learning > RL' 카테고리의 다른 글

[모두RL-⑥] DQN  (0) 2022.03.07
[모두RL-⑤] Q-Network  (0) 2022.03.07
[모두RL-④] Stochastic (non-deterministic)  (0) 2022.03.07
[모두RL-③] E&E과 discounted future reward  (0) 2022.03.07
[모두RL-②] Dummy Q-Learning (table)  (0) 2022.03.06

댓글