[패캠] tokenization
김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지 Online.
Ch03. preprocessing - 07. 한,중,영,일 코퍼스 분절(tokenization)
1. Sentence Segmentation
우리가 수집한 corpus는 한 라인에 여러 문장이 들어있거나, 한 문장이 여러 라인에 들어있을 수 있다.
이를 1sentence/1line 이렇게 원하는 형태로 변환해주는 것!
NLTK를 활용하면 된다.
from nltk.tokenize import sent_tokenize
2. Tokenization
두 개 이상의 다른 token들의 결합으로 이루어진 단어를 쪼개어, vocabulary 숫자를 줄이고, 희소성(sparseness)을 낮추기 위함
ex) tokenize를 안해주게 되면 mouthpiece와 mouthpiece, 는 다른 단어가 된다. 콤마 등 후처리도 tokenization에 포함
- 한국어: 교착어(어근에 접사가 붙어 다양한 단어가 파생됨), 띄어쓰기 통일의 필요성
즉, 접사를 분리하여 희소성을 낮추고 띄어쓰기를 통일하기 위해 tokenization을 수행한다.
- 영어: 띄어쓰기 good, nltk를 사용하여 comma 등 후처리
- 중국어: 기본적인 띄어쓰기가 없음, character 단위로 사용해도 무방
** 형태소 분석 및 품사 태깅
- 형태소 분석: 형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악
- 품사 태깅: 형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일
- 프로그램: Mecab, KoNLPy
(어떤 프로그램을 사용하느냐에 따라 조금씩 다를 수 있음)
subword segmentation
'Deep Learning > NLP' 카테고리의 다른 글
[패캠] (Seq2Seq) seq2seq 모델 (0) | 2022.02.06 |
---|---|
[패캠] (LM) Neural LM (0) | 2022.02.05 |
[패캠] (LM) 기존의 언어 모델 (0) | 2022.02.05 |
[패캠] (LM) 언어모델 (0) | 2022.02.05 |
[패캠] 자연어 생성이란 (0) | 2022.02.05 |
댓글