본문 바로가기
Deep Learning/NLP

[패캠] tokenization

by 룰루셩 2021. 10. 8.

[패캠] tokenization

김기현의 딥러닝을 활용한 자연어처리 입문 올인원 패키지 Online.

Ch03. preprocessing - 07. 한,중,영,일 코퍼스 분절(tokenization)

 

1. Sentence Segmentation

우리가 수집한 corpus는 한 라인에 여러 문장이 들어있거나, 한 문장이 여러 라인에 들어있을 수 있다. 

이를 1sentence/1line 이렇게 원하는 형태로 변환해주는 것!

NLTK를 활용하면 된다.

from nltk.tokenize import sent_tokenize

 

2. Tokenization

두 개 이상의 다른 token들의 결합으로 이루어진 단어를 쪼개어, vocabulary 숫자를 줄이고, 희소성(sparseness)을 낮추기 위함

ex) tokenize를 안해주게 되면 mouthpiece와 mouthpiece, 는 다른 단어가 된다. 콤마 등 후처리도 tokenization에 포함

- 한국어: 교착어(어근에 접사가 붙어 다양한 단어가 파생됨), 띄어쓰기 통일의 필요성

                 즉, 접사를 분리하여 희소성을 낮추고 띄어쓰기를 통일하기 위해 tokenization을 수행한다.

- 영어: 띄어쓰기 good, nltk를 사용하여 comma 등 후처리

- 중국어: 기본적인 띄어쓰기가 없음, character 단위로 사용해도 무방

 

** 형태소 분석 및 품사 태깅

- 형태소 분석: 형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악

- 품사 태깅: 형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일 

- 프로그램: Mecab, KoNLPy

(어떤 프로그램을 사용하느냐에 따라 조금씩 다를 수 있음)

 

subword segmentation

 

 

'Deep Learning > NLP' 카테고리의 다른 글

[패캠] (Seq2Seq) seq2seq 모델  (0) 2022.02.06
[패캠] (LM) Neural LM  (0) 2022.02.05
[패캠] (LM) 기존의 언어 모델  (0) 2022.02.05
[패캠] (LM) 언어모델  (0) 2022.02.05
[패캠] 자연어 생성이란  (0) 2022.02.05

댓글