본문 바로가기

Deep Learning/NLP8

[패캠] (LM) 기존의 언어 모델 기존의 언어모델 [패스트 캠퍼스] 김기현의 딥러닝을 활용한 자연어생성 올인원 패키지 Online. Ch 02. Language Modeling 03. n-gram 04. Smoothing and Discount 05. Interpolation and Back-off 06. Perplexity 강의를 듣고 작성하였다. (혹시 본 포스팅이 저작권 등의 문제가 있다면 알려주세요. 바로 내리도록 하겠습니다. 개인 공부 후 언제든지 다시 찾아볼 용도로 작성하고 있습니다.) n-gram 👉좋은 모델이란 Generalization을 잘하는 모델! Training(seen) data를 통해서 test(unseen) data에 대해 훌륭한 prediction을 할 수 있는가? 이전에 배웠던 것처럼 n번째 이전의 단어가 .. 2022. 2. 5.
[패캠] (LM) 언어모델 언어모델 [패스트 캠퍼스] 김기현의 딥러닝을 활용한 자연어생성 올인원 패키지 Online. Ch 02. Language Modeling 01. 들어가며 02. 언어모델 수식 강의를 듣고 작성하였다. (혹시 본 포스팅이 저작권 등의 문제가 있다면 알려주세요. 바로 내리도록 하겠습니다. 개인 공부 후 언제든지 다시 찾아볼 용도로 작성하고 있습니다.) 언어모델(Language Model, LM) 문장의 확률을 나타낸 모델이다. 문장 자체의 출현 확률을 예측하거나, 이전 단어들이 주어졌을 때 다음 단어를 예측하기 위한 모델 위의 둘은 수학적으로 같다. 👉 예를 들어, '버스 정류장에서 방금 버스를 OOO.' 빈칸에 들어갈 말을 골라보자. 사랑해 고양이 놓쳤다 사고남 이 예시를 보고 우리는 바로 3번을 선택할 것.. 2022. 2. 5.
[패캠] 자연어 생성이란 자연어 생성이란 [패스트 캠퍼스] 김기현의 딥러닝을 활용한 자연어생성 올인원 패키지 Online. Ch 01. Orientation 04. 자연어 생성이란 강의를 듣고 작성하였다. (혹시 본 포스팅이 저작권 등의 문제가 있다면 알려주세요. 바로 내리도록 하겠습니다. 개인 공부 후 언제든지 다시 찾아볼 용도로 작성하고 있습니다.) 우리의 목적 컴퓨터가 인간이 만들어놓은 대량의 문서를 통해 정보를 얻고 (NLU) *U: understanding 얻어낸 정보를 사람이 이해할 수 있게 사람의 언어로 표현하는 것 (NLG) 즉, 컴퓨터의 언어, 컴퓨터가 가지고 있는 정보를 사람이 이해할 수 있게 표현하는 과정: Natural Language Generation NLP는 seq2seq 모델이 나오기 전까지 다른 분.. 2022. 2. 5.
[패캠] tokenization [패캠] tokenization 김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지 Online. Ch03. preprocessing - 07. 한,중,영,일 코퍼스 분절(tokenization) 1. Sentence Segmentation 우리가 수집한 corpus는 한 라인에 여러 문장이 들어있거나, 한 문장이 여러 라인에 들어있을 수 있다. 이를 1sentence/1line 이렇게 원하는 형태로 변환해주는 것! NLTK를 활용하면 된다. from nltk.tokenize import sent_tokenize 2. Tokenization 두 개 이상의 다른 token들의 결합으로 이루어진 단어를 쪼개어, vocabulary 숫자를 줄이고, 희소성(sparseness)을 낮추기 위함 ex) toke.. 2021. 10. 8.