본문 바로가기

개인 공부기록42

[패캠] Dimension Reduction [패스트캠퍼스] 김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지 Part 1. 딥러닝 초급 Ch 04. Geometric Perspective - 01. 차원의 저주 Ch 04. Geometric Perspective - 03. 매니폴드(Manifold) 가설 Ch 04. Geometric Perspective - 05. 정리하며 강의를 듣고 작성하였습니다. Curse of Dimensionality(차원의 저주) 차원이 높아짐에 따라 데이터가 희소하게 분포하게 되는 문제가 발생한다. 여기서 데이터가 희소하게 분포하는 것이 무엇인지에 대해 그동안 정확히 이해하지 못한채로 넘어갔었는데, 김기현 선생님께서 명확하게 설명해주셨다. 위의 그림처럼 1D에 데이터가 분포한다고 하면 4칸만 확인하면 데이터 분.. 2021. 11. 3.
[패캠] tokenization [패캠] tokenization 김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지 Online. Ch03. preprocessing - 07. 한,중,영,일 코퍼스 분절(tokenization) 1. Sentence Segmentation 우리가 수집한 corpus는 한 라인에 여러 문장이 들어있거나, 한 문장이 여러 라인에 들어있을 수 있다. 이를 1sentence/1line 이렇게 원하는 형태로 변환해주는 것! NLTK를 활용하면 된다. from nltk.tokenize import sent_tokenize 2. Tokenization 두 개 이상의 다른 token들의 결합으로 이루어진 단어를 쪼개어, vocabulary 숫자를 줄이고, 희소성(sparseness)을 낮추기 위함 ex) toke.. 2021. 10. 8.
Domain Adaptation Domain Adaptation 논문 읽다가 모르는 개념이고 전부터 계속 나오던 것 같아서 이번 기회에 공부해보았다. 유튜브에 정리된 걸 보고 공부하였다. 먼저 Domain Adaptation이라는 것을 왜 쓸까? - Source(학습데이터)와 Target(평가데이터) domain이 상당히 다를 경우 예측된 label은 domain에 의해서 상당히 다를 수 있다. 예를 들어 아래의 이미지와 같이 MNIST 데이터가 있을 때 학습 데이터는 흑백 이미지인데 테스트 데이터는 컬러인 경우가 있다. 두 개의 도메인에 대한 shift가 최소화 되도록 하는 것이 Domain Adaptation의 목적이다. Domain Adaptation 방법론을 사용하면 train(Source)와 test(Target)분포를 유사하.. 2021. 2. 7.
[논문 리뷰] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization [논문 리뷰] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization 안녕하세요. 이번에 제가 읽은 논문은 Grad-CAM 기술을 소개한 논문입니다. 논문은 여기를 눌러 확인해주세요. 이번에도 유튜브 PR 영상을 보고 공부했습니다. 본 포스트에서는 Grad-CAM이 무엇인지에 대해 설명한 부분까지만 리뷰하도록 하겠습니다. Interpretability matters 딥러닝은 우수한 성능을 가지고 있지만 직관적인 구성요소로 분해할 수 없기 때문에 해석하기 어렵습니다. 우리가 구축한 모델로 예측할 때, 예측하는 이유를 설명할 수 있는 능력, 즉 해석력을 갖춘다면 우리는 모델이 틀렸을때나 맞췄을 때에 모두 도움이 될 것입.. 2020. 11. 13.