본문 바로가기

Study25

Fasttext classification (텍스트 분류) Facebook's AI Research (FAIR) lab 에서 만든wordembdding과 text classification을 위한 library 294개 언어에 대해서 pretrained model을 제공 레이블이 많고 일부 레이블로 분류해야 하는 짧은 텍스트가 많을 때 정말 잘 작동함 https://github.com/facebookresearch/fastText GitHub - facebookresearch/fastText: Library for fast text representation and classification. Library for fast text representation and classification. - GitHub - facebookresearch/fastText: .. 2023. 5. 17.
[Mecab] 사전 우선순위 설정 https://uiydlop.tistory.com/20 [Mecab] 사용자 사전 단어 추가 방법 mecab을 사용해서 형태소분석하고 나면, 중요 token들이 인식되지 않을 때가 있다. 기본적으로 mecab은 제공하는 사전 외에, 사용자가 직접 입력해서 단어를 인식할 수 있도록 하는 ‘사용자 사전’ uiydlop.tistory.com 앞서 사용자 사전 추가할 때 우선순위를 설정하지 않아, 원하는 단어가 출력되지 않은 경우들이 있다. 이경우에는 아래와 같이 우선순위(가중치)를 지정해 주면 된다. 일반적으로 사용자 사전에 단어를 등록할 때 우선순위(가중치)를 지정해 주지 않았음. ✅ 단어 추가 양식 : 추가할 단어, 0, 0, 우선순위(가중치), 품사태그, 의미분류, 종성유무(단어의 끝 글자 받침 유무로 .. 2023. 2. 24.
[Mecab] 사용자 사전 단어 추가 방법 mecab을 사용해서 형태소분석하고 나면, 중요 token들이 인식되지 않을 때가 있다. 기본적으로 mecab은 제공하는 사전 외에, 사용자가 직접 입력해서 단어를 인식할 수 있도록 하는 ‘사용자 사전’ 제공한다. 기존 사전에 다양한 단어들이 있지만, 원하는 대로 검색이 되지않는 합성어나, 신조어, 외래어(붙어서 나와야 하는데 띄어서 나오는 단어)등 필요한 단어를 사용자 사전에 추가하여 하나의 토큰으로 분석될 수 있도록 한다. 1. user-dic 폴더의 csv 파일에 단어 추가 C:\mecab\user-dic 예) LG전자라는 단어를 추가 하고싶다. 적용 전 : LG, 전자 분리됨 ✅ 단어 추가 양식 : 추가할 단어, 0, 0, 우선순위(가중치), 품사태그, 의미분류, 종성유무(단어의 끝 글자 받침 유.. 2022. 8. 27.
[Mecab] 형태소분석기 설치 - window mecab 설치에 앞서, NLP에 대해 간단히 정리하자면... ✔ NLP(Natural Language Processing, 자연어 처리) : 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석. 자연어 인식 및 자연어 생성이 NLP의 유형 ✔ KoNLPy : 한글 자연어 처리를 쉽고 간결하게 처리할 수 있도록 만들어진 오픈소스 라이브러리. 한글 텍스트의 경우, 형태소 단위 토크 나이징이 필요하며 KoNLPy에서 제공하는 형태소 분석기 중 하나가 ⬇Mecab https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/ 형태소 분석 및 품사 태깅 — KoNLPy 0.4.3 documentation 형태소 분석 및 품사 태깅 형태소 분석 이란 형태소를 비롯.. 2022. 8. 19.