Autoencoders
[패스트캠퍼스] 김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지
Part 1. 딥러닝 초급
Ch 02. Representation Learning - 01. 특징(feature)이란
Ch 02. Representation Learning - 02. 원핫 인코딩
Ch 02. Representation Learning - 03. 오토인코더
Ch 02. Representation Learning - 04. Hidden Representaion
강의를 듣고 작성하였습니다.
오토인코더라는 말을 많이 들어봤었는데, 정확히 뭘 의미하는건지 몰랐었다.
딥러닝 공부를 하다보면 인코더, 디코더 이런 얘기를 많이 들을 수 있는데 이번 강의를 통해 개념 정리를 할 수 있었다.
Feature란?
- 샘플을 잘 설명하는 특징
- 나쁜 특징은 모두가 똑같이 가지고 있는 특징이거나, 주민등록번호처럼 전국민 수 만큼 메모리가 필요한 것..
- 특징을 통해 우리는 특정 샘플을 수치화 할 수 있다
- 이제는 Hand-crafted feature가 아닌, end-to-end 방식으로 raw 데이터에 최소한의 전처리만 수행해서 모델이 feature를 학습하도록 한다.
- Hand-crafted feature: 사람이 데이터를 분석 후, 가정을 세움 → 가정에 따라 전처리를 하여 feature를 추출 → 추출된 feature를 model에 넣어 학습
Feature Vector
- 각 특징들을 모아서 하나의 vector로 만든 것을 말한다.
- Tabular dataset의 각 row도 feature vector이다.
- 각 차원은 어떤 속성에 대한 level을 나타낸다. 즉, 아래 표를 보면 각각의 값들은 키, 몸무게, 나이에 대한 level을 나타낸다고 할 수 있다. 각 속성에 대한 level이 비슷할수록 비슷한 샘플이라고 볼 수 있다.
키 몸무게 나이 A 160 55 55 B 170 70 34 - 우리는 feature vector를 통해 샘플 사이의 거리(유사도)를 계산할 수 있다.
One-hot Encoding
- Categorical Value는 one-hot encoding을 통해 벡터로 표현된다.
- Sparse Vector는 벡터간 유사도 계산이 어렵다.
- 따라서 Dense Vector로 표현할 필요가 있다. → vector embedding
Autoencoder
- 인코더와 디코더를 통해 압축과 해제를 실행한다.
- 인코더는 입력(x)의 정보를 최대한 보존하도록 손실압축을 수행하고,
- 디코더는 중간결과물(z)의 정보를 입력(x)와 같아지도록 압축 해제(복원)를 수행한다.
- 복원을 성공적으로 하기 위해, 오토인코더는 특징을 추출하는 방법을 자동으로 학습한다.
- 필요한 정보와 필요 없는 정보를 구분할 수 있게 되는 것
Hidden representation
- 각 레이어의 결과물을 hidden vector라고 부름
- 어떤 Neural network를 통과하는 과정은 latent space에 맵핑하는 과정이라고 생각할 수 있으며, hidden vector는 샘플의 feature를 담고 있다.
- hidden vector는 해석이 어렵지만, 비슷한 특징을 가진 샘플은 비슷한 hidden layer를 가질 것이다.
'Deep Learning > 딥러닝 기초' 카테고리의 다른 글
[패캠] Dimension Reduction (1) | 2021.11.03 |
---|---|
[Hands-on-ml-2] 모델 평가 (0) | 2020.07.30 |
[hands-on-ml-2] 범주형 데이터 다루기 (0) | 2020.07.25 |
[모두를 위한 머신러닝/딥러닝] ML (0) | 2020.07.09 |
댓글