KoNLPy는 형태소 분석기를 하나로 모은 패키지입니다.
패키지 안에는 Kkma, Twitter, Mecab 등과 같은 클래스가 들어가 있습니다.
이 게시글에서 클래스 간의 성능 비교 결과치 및 사용 방법에 대해서 설명드리겠습니다.
Konlpy 패키지 설치 : 파이썬 형태소 분석 KoNLPy 및 Word2Vec Gensim 설치
konlpy 문서에 따르면 클래스 간의 성능은 아래와 같습니다.
출처 : http://konlpy.org/ko/v0.4.3/morph/
사전 로딩시간
- Kkma: 5.6988 secs
- Komoran: 5.4866 secs
- Hannanum: 0.6591 secs
- Twitter: 1.4870 secs
- Mecab: 0.0007 secs
클래스 pos 메소드 실행 시간
- Kkma: 35.7163 secs
- Komoran: 25.6008 secs
- Hannanum: 8.8251 secs
- Twitter: 2.4714 secs
- Mecab: 0.2838 secs
성능을 보시자면 Mecab이 우수하고 그 다음은 Twitter가 괜찮다는 것을 아실 수 있습니다.
시간적인 성능면뿐만 아니라 각 문장을 어떻게 태그하는 지도 아래 예제에서 살펴보실 수 있습니다.
아버지가방에들어가신다
형태소 분석기 중에서 제일 효율이 괜찮은 것은 Mecab 입니다. 하지만 Mecab 같은 경우 윈도우 7을 지원하지 않을 뿐만 아니라 윈도우 10에서는 빌드 등의 과정을 거쳐야만 사용할 수 있습니다. 이런 과정들이 귀찮으신 분들은 Twitter를 쓰시기 바라며, 우분투나 MacOS를 쓰시는 분들은 Mecab을 쓰시면 됩니다. 참고로 우분투나 MacOS에서도 Mecab을 쓰려면 Mecab-python 등의 설치 등이 필요로 합니다 …
– 필자는 이런 과정들이 번거러워 Twitter 클래스를 이용했습니다.
1 2 3 4 5 6 |
from konlpy.tag import Twitter twitter = Twitter() print(twitter.pos("히라마블로그에온걸환영해!")) |
“히라마블로그에온걸환영해!”를 태깅할 경우
1 2 3 4 |
[('히', 'Adverb'), ('라마', 'Noun'), ('블로그', 'Noun'), ('에', 'Josa'), ('온걸', 'Noun'), ('환영해', 'Verb'), ('!', 'Punctuation')] |
위와 같은 결과물이 나오게 됩니다.
더 자세한 사용법은 http://konlpy.org/en/latest/ 를 참고하시기 바랍니다.
안녕하세요! 유용한 글 잘 읽고갑니다 ㅎㅎㅎ 근데 혹시.. 영어 글씨체 정보좀 알 수 있을까요? 깔끔하고 예쁘네요 ㅠㅠ
Libre Franklin Font 입니다 ㅎㅎ