실습이 시작되는 절이다. 아래의 포스트에 C++로 직접 구현한 실습 자료를 올려 두었으니, 참고가 되시면 좋겠다.
교재링크(광고 아님): freelec.co.kr/book/인공지능을-위한-수학/
6-4 문장에서 품사 분석하기
6-5 단어 필터링하기
6-4 문장에서 품사 분석하기
MeCab
교재에는 "일본 교토대와 NTT(Nippon Telegraph and Telephone) 기초연구소 공동개발한 형태소 분석기"라고 되어 있는데, 아래 영문위키의 내용은 사뭇 다르다.
뭔가 히스토리가 좀 더 있을 것 같은데, 그냥 그런갑다 하고 넘어가지 않으면 공부에 지장을 줄 듯.
현재 유지되는 오픈소스 링크는 github.com/taku910/mecab 이것 같다.
mecab-ko
일본의 MeCab을 기반으로 개발된 한국말 형태소 분석기. 은전한닢 프로젝트를 통해 탄생하였다.
은전한닢 프로젝트
우리나라의 이용운/유영호 라는 두 분의 의인께서 한국형 형태소분석기를 개발하시기 위해 분연히 일어서서 만드신 프로젝트.
"mecab-ko the beginning" 이 궁금하다면 아래 링크를 참고하시길.
2018년까지 활발하게 업데이트가 되었다. 오픈소스 링크는 bitbucket.org/eunjeon/ 여기에 들어가면 된다.
어쨌든, 이 프로젝트가 없었다면 본 예제의 한국어 버전은 존재 자체가 불가능했을 듯 하다. 잘보면 우리나라 IT에도 의인들이 참 많다. 그래서, 이렇게 우리 IT인들이 배곯지 않고 살아갈 수 있는 것이겠지.
6-5 단어 필터링하기
스톱워드(stop words)
문장의 특징에 큰 영향을 주지 않으면서 분석에는 방해가 되는 단어들. 영어는 'of', 'the', 'a' 등이고 한국어는 '에', '를', '는' 등이라고 한다. 기계적으로 제거하는 게 도움이 된다고 하는데, 경우에 따라서는 꼭 필요해서 제거할 수 없다고 한다. 작업자가 종합적으로 판단해서 결정해야 한다는데... 이 거 정말 인공지능이 맞는 것인가 하는 의구심이... (사람 손이 너무 많이 감.)
'Book Study > 인공지능을 위한 수학' 카테고리의 다른 글
6장 자연어 처리(6절:문서를 단어 벡터로 변환하기) - 응용편 - 인공지능을 위한 수학 (0) | 2021.03.13 |
---|---|
'인공지능을 위한 수학' 의 원서는? (0) | 2021.03.08 |
6장 자연어 처리(3절:자연어 처리의 작동 원리) - 응용편 - 인공지능을 위한 수학 (0) | 2021.03.03 |
6장 자연어 처리(1~2절) - 응용편 - 인공지능을 위한 수학 (0) | 2021.03.02 |
5장 선형회귀(6절:완성된 모델 평가하기) - 응용편 - 인공지능을 위한 수학 (0) | 2021.02.26 |