반응형
개발자_SHINBAK/인공지능 김신박2020. 7. 29. 13:28NLP 이론 시험 요약

토큰화 문장 토큰화와 단어토큰화 단어 토큰화에서 한글을 반드시 품사를 고려한 토큰화가 이루어져야한다 특수문자.. 무조건 지우는건 아니다. 데이터를 보고 결정하는것 띄어쓰기는 연어의 문제. 품사 부착 한국은행에서는 5개의 품사만 부착하고 나머지는 안썼음 개체 유형 (자료형) - 텍스트 안에서 타입이라고 생각하면 된다. 개체명 인식 원형 복원 매우 중요 각 특징에 대한 이해도 필요 각토큰 원형 복원해서 토큰을 표준화, 연산을 줄인다. 1.(스테밍)어간 추출 - '품사를 무시하고' 규칙에 기반해서 어간 추출 가독성 딸림 2.(레마타이제이션) 표제어 추출 -품사정보를 유지하여 표제어 추출 (사전에 기반) 사전에 없으면 할수 없음. 품질은 좋지만 사전에 없으면 할수없어서 ... 어간추출과 상호보완 불용어 불필요한..

반응형
image