실습이 시작되는 절이다. 아래의 포스트에 C++로 직접 구현한 실습 자료를 올려 두었으니, 참고가 되시면 좋겠다.

 

자연어 처리 실습 - C++ 소스 코드 (Natural Language Processing Practice with C++)

아래 사이트에 '인공지능을 위한 수학' 교재 6장 예제(카테고리 판별기)를 실습한 C++ 소스 코드를 업로드하고 있다. Changes 21.03.12 - 스톱워드(stop-words) 제거 기능 추가 21.03.11 - 형태소 분석 결과를

swjman.tistory.com

 

교재링크(광고 아님): freelec.co.kr/book/인공지능을-위한-수학/

 

6-4 문장에서 품사 분석하기

6-5 단어 필터링하기

 

6-4 문장에서 품사 분석하기

MeCab

교재에는 "일본 교토대와 NTT(Nippon Telegraph and Telephone) 기초연구소 공동개발한 형태소 분석기"라고 되어 있는데, 아래 영문위키의 내용은 사뭇 다르다.

 

MeCab

MeCab is an open-source text segmentation library for use with text written in the Japanese language originally developed by the Nara Institute of Science and Technology and currently maintained by Taku Kudou (工藤拓) as part of his work on the Google J

en.wikipedia.org

뭔가 히스토리가 좀 더 있을 것 같은데, 그냥 그런갑다 하고 넘어가지 않으면 공부에 지장을 줄 듯.

현재 유지되는 오픈소스 링크는 github.com/taku910/mecab 이것 같다.

 

mecab-ko

일본의 MeCab을 기반으로 개발된 한국말 형태소 분석기. 은전한닢 프로젝트를 통해 탄생하였다.

 

은전한닢 프로젝트

우리나라의 이용운/유영호 라는 두 분의 의인께서 한국형 형태소분석기를 개발하시기 위해 분연히 일어서서 만드신 프로젝트. 

"mecab-ko the beginning" 이 궁금하다면 아래 링크를 참고하시길.

 

은전한닢 프로젝트를 소개합니다.

은전한닢 프로젝트: 오픈 소스 한국어 / 한글 형태소 분석기 Lucene/Solr, ElasticSearch 플러그인

eunjeon.blogspot.com

2018년까지 활발하게 업데이트가 되었다. 오픈소스 링크는 bitbucket.org/eunjeon/ 여기에 들어가면 된다.

어쨌든, 이 프로젝트가 없었다면 본 예제의 한국어 버전은 존재 자체가 불가능했을 듯 하다. 잘보면 우리나라 IT에도 의인들이 참 많다. 그래서, 이렇게 우리 IT인들이 배곯지 않고 살아갈 수 있는 것이겠지.

 

 

6-5 단어 필터링하기

스톱워드(stop words)

문장의 특징에 큰 영향을 주지 않으면서 분석에는 방해가 되는 단어들. 영어는 'of', 'the', 'a' 등이고 한국어는 '에', '를', '는' 등이라고 한다. 기계적으로 제거하는 게 도움이 된다고 하는데, 경우에 따라서는 꼭 필요해서 제거할 수 없다고 한다. 작업자가 종합적으로 판단해서 결정해야 한다는데... 이 거 정말 인공지능이 맞는 것인가 하는 의구심이... (사람 손이 너무 많이 감.)

 

 

Posted by JMAN