본문 바로가기

자연어처리3

[Mecab] 사용자 사전 단어 코드로 추가 방법 https://uiydlop.tistory.com/20 [Mecab] 사용자 사전 단어 추가 방법mecab을 사용해서 형태소분석하고 나면, 중요 token들이 인식되지 않을 때가 있다. 기본적으로 mecab은 제공하는 사전 외에, 사용자가 직접 입력해서 단어를 인식할 수 있도록 하는 ‘사용자 사전’uiydlop.tistory.com 이전에는 사용자 사전 단어를 추가하기 위해 csv 파일을 직접 열고 수정하였는데,이제는 간단한 코드를 실행함으로써 종성 유무를 자동으로 확인하고, 원하는 단어를 손쉽게 추가할 수 있는 코드를 소개하고자 합니다.    1. 종성 함수- 주어진 단어의 마지막 글자를 바탕으로 종성 유무를 확인하여, 종성이 있으면 "F", 없으면 "T"를 반환def check_jongsung(sam.. 2025. 4. 3.
[Mecab] 사용자 사전 단어 추가 방법 mecab을 사용해서 형태소분석하고 나면, 중요 token들이 인식되지 않을 때가 있다. 기본적으로 mecab은 제공하는 사전 외에, 사용자가 직접 입력해서 단어를 인식할 수 있도록 하는 ‘사용자 사전’ 제공한다. 기존 사전에 다양한 단어들이 있지만, 원하는 대로 검색이 되지않는 합성어나, 신조어, 외래어(붙어서 나와야 하는데 띄어서 나오는 단어)등 필요한 단어를 사용자 사전에 추가하여 하나의 토큰으로 분석될 수 있도록 한다. 1. user-dic 폴더의 csv 파일에 단어 추가 C:\mecab\user-dic 예) LG전자라는 단어를 추가 하고싶다. 적용 전 : LG, 전자 분리됨 ✅ 단어 추가 양식 : 추가할 단어, 0, 0, 우선순위(가중치), 품사태그, 의미분류, 종성유무(단어의 끝 글자 받침 유.. 2022. 8. 27.
[Mecab] 형태소분석기 설치 - window mecab 설치에 앞서, NLP에 대해 간단히 정리하자면... ✔ NLP(Natural Language Processing, 자연어 처리) : 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석. 자연어 인식 및 자연어 생성이 NLP의 유형 ✔ KoNLPy : 한글 자연어 처리를 쉽고 간결하게 처리할 수 있도록 만들어진 오픈소스 라이브러리. 한글 텍스트의 경우, 형태소 단위 토크 나이징이 필요하며 KoNLPy에서 제공하는 형태소 분석기 중 하나가 ⬇Mecab https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/ 형태소 분석 및 품사 태깅 — KoNLPy 0.4.3 documentation 형태소 분석 및 품사 태깅 형태소 분석 이란 형태소를 비롯.. 2022. 8. 19.