본문 바로가기
Deep Learning/딥러닝 기초

[패캠] Autoencoders

by 룰루셩 2021. 12. 14.

Autoencoders

[패스트캠퍼스] 김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지

Part 1. 딥러닝 초급

    Ch 02. Representation Learning - 01. 특징(feature)이란

    Ch 02. Representation Learning - 02. 원핫 인코딩

    Ch 02. Representation Learning - 03. 오토인코더

    Ch 02. Representation Learning - 04. Hidden Representaion

강의를 듣고 작성하였습니다.

오토인코더라는 말을 많이 들어봤었는데, 정확히 뭘 의미하는건지 몰랐었다.

딥러닝 공부를 하다보면 인코더, 디코더 이런 얘기를 많이 들을 수 있는데 이번 강의를 통해 개념 정리를 할 수 있었다.


Feature란?

  • 샘플을 잘 설명하는 특징
  • 나쁜 특징은 모두가 똑같이 가지고 있는 특징이거나, 주민등록번호처럼 전국민 수 만큼 메모리가 필요한 것..
  • 특징을 통해 우리는 특정 샘플을 수치화 할 수 있다
  • 이제는 Hand-crafted feature가 아닌, end-to-end 방식으로 raw 데이터에 최소한의 전처리만 수행해서 모델이 feature를 학습하도록 한다.
    • Hand-crafted feature: 사람이 데이터를 분석 후, 가정을 세움 → 가정에 따라 전처리를 하여 feature를 추출 → 추출된 feature를 model에 넣어 학습

 

Feature Vector

  • 각 특징들을 모아서 하나의 vector로 만든 것을 말한다.
  • Tabular dataset의 각 row도 feature vector이다.
  • 각 차원은 어떤 속성에 대한 level을 나타낸다. 즉, 아래 표를 보면 각각의 값들은 키, 몸무게, 나이에 대한 level을 나타낸다고 할 수 있다. 각 속성에 대한 level이 비슷할수록 비슷한 샘플이라고 볼 수 있다.
      몸무게 나이
    A 160 55 55
    B 170 70 34
  • 우리는 feature vector를 통해 샘플 사이의 거리(유사도)를 계산할 수 있다.

 

One-hot Encoding

  • Categorical Value는 one-hot encoding을 통해 벡터로 표현된다.
  • Sparse Vector는 벡터간 유사도 계산이 어렵다.
  • 따라서 Dense Vector로 표현할 필요가 있다. → vector embedding

 

Autoencoder

  • 인코더와 디코더를 통해 압축과 해제를 실행한다.
  • 인코더는 입력(x)의 정보를 최대한 보존하도록 손실압축을 수행하고,
  • 디코더는 중간결과물(z)의 정보를 입력(x)와 같아지도록 압축 해제(복원)를 수행한다.
  • 복원을 성공적으로 하기 위해, 오토인코더는 특징을 추출하는 방법을 자동으로 학습한다.
  • 필요한 정보와 필요 없는 정보를 구분할 수 있게 되는 것

 

Hidden representation

  • 각 레이어의 결과물을 hidden vector라고 부름
    • 어떤 Neural network를 통과하는 과정은 latent space에 맵핑하는 과정이라고 생각할 수 있으며, hidden vector는 샘플의 feature를 담고 있다.
  • hidden vector는 해석이 어렵지만, 비슷한 특징을 가진 샘플은 비슷한 hidden layer를 가질 것이다.

댓글