본문 바로가기

NLP6

[Mecab] 사용자 사전 단어 코드로 추가 방법 https://uiydlop.tistory.com/20 [Mecab] 사용자 사전 단어 추가 방법mecab을 사용해서 형태소분석하고 나면, 중요 token들이 인식되지 않을 때가 있다. 기본적으로 mecab은 제공하는 사전 외에, 사용자가 직접 입력해서 단어를 인식할 수 있도록 하는 ‘사용자 사전’uiydlop.tistory.com 이전에는 사용자 사전 단어를 추가하기 위해 csv 파일을 직접 열고 수정하였는데,이제는 간단한 코드를 실행함으로써 종성 유무를 자동으로 확인하고, 원하는 단어를 손쉽게 추가할 수 있는 코드를 소개하고자 합니다.    1. 종성 함수- 주어진 단어의 마지막 글자를 바탕으로 종성 유무를 확인하여, 종성이 있으면 "F", 없으면 "T"를 반환def check_jongsung(sam.. 2025. 4. 3.
Fasttext 이용해서 분류 모델 만들기 ✔ google colab에서 실행 ✔ fasttext text classification (텍스트 분류) 사용 https://uiydlop.tistory.com/22 Fasttext classification (텍스트 분류) Facebook's AI Research (FAIR) lab 에서 만든wordembdding과 text classification을 위한 library 294개 언어에 대해서 pretrained model을 제공 레이블이 많고 일부 레이블로 분류해야 하는 짧은 텍스트가 많을 때 정말 잘 uiydlop.tistory.com ✔ 학습데이터로는 https://dacon.io/competitions/open/235597/data 청와대 청원 주제 데이터 이용 1. fattext 설치 !p.. 2023. 5. 17.
Fasttext classification (텍스트 분류) Facebook's AI Research (FAIR) lab 에서 만든wordembdding과 text classification을 위한 library 294개 언어에 대해서 pretrained model을 제공 레이블이 많고 일부 레이블로 분류해야 하는 짧은 텍스트가 많을 때 정말 잘 작동함 https://github.com/facebookresearch/fastText GitHub - facebookresearch/fastText: Library for fast text representation and classification. Library for fast text representation and classification. - GitHub - facebookresearch/fastText: .. 2023. 5. 17.
[Mecab] 사전 우선순위 설정 https://uiydlop.tistory.com/20 [Mecab] 사용자 사전 단어 추가 방법 mecab을 사용해서 형태소분석하고 나면, 중요 token들이 인식되지 않을 때가 있다. 기본적으로 mecab은 제공하는 사전 외에, 사용자가 직접 입력해서 단어를 인식할 수 있도록 하는 ‘사용자 사전’ uiydlop.tistory.com 앞서 사용자 사전 추가할 때 우선순위를 설정하지 않아, 원하는 단어가 출력되지 않은 경우들이 있다. 이경우에는 아래와 같이 우선순위(가중치)를 지정해 주면 된다. 일반적으로 사용자 사전에 단어를 등록할 때 우선순위(가중치)를 지정해 주지 않았음. ✅ 단어 추가 양식 : 추가할 단어, 0, 0, 우선순위(가중치), 품사태그, 의미분류, 종성유무(단어의 끝 글자 받침 유무로 .. 2023. 2. 24.