전처리는 왜 필요할까? 정제하지 않은 데이터와 정제한 데이터는 분석 결과에서 많은 차이를 보인다. 전처리 방법 Basic, Tokenize, Spell, Check, Pos Tag, STemming, Stopwords 1. Basic 기초적인 전처리 html tag 제거 (크롤링한 html 원문 데이터일 경우) 숫자 영어, 특수문자 등 필요하지 않은 언어 제거 Lowercasing punctuation(문장부호) 제거 Emoji 및 BMP (유니코드에서 Basic Multilingual Plane(기본 다국어 평면)) 제거 기초 전처리는 데이터를 적재, 전송 등 다른 용도로 사용할 때에도 필요하다 2. Tokenize 자연어 처리에서는 텍스트를 토큰 단위로 나눈다. 특히 한국어에서는 띄어쓰기는 문맥과 의..