Study25 [Mecab] 사용자 사전 단어 코드로 추가 방법 https://uiydlop.tistory.com/20 [Mecab] 사용자 사전 단어 추가 방법mecab을 사용해서 형태소분석하고 나면, 중요 token들이 인식되지 않을 때가 있다. 기본적으로 mecab은 제공하는 사전 외에, 사용자가 직접 입력해서 단어를 인식할 수 있도록 하는 ‘사용자 사전’uiydlop.tistory.com 이전에는 사용자 사전 단어를 추가하기 위해 csv 파일을 직접 열고 수정하였는데,이제는 간단한 코드를 실행함으로써 종성 유무를 자동으로 확인하고, 원하는 단어를 손쉽게 추가할 수 있는 코드를 소개하고자 합니다. 1. 종성 함수- 주어진 단어의 마지막 글자를 바탕으로 종성 유무를 확인하여, 종성이 있으면 "F", 없으면 "T"를 반환def check_jongsung(sam.. 2025. 4. 3. [CS231n-Lecture 3] Loss Functions and Optimization image classification 작업하기 좋은 몇가지 손실함수를 이용해서 모델의 예측값이 정답값에 비해 얼마나 별론지 측정한다. 그리고 통제하기 위해 regularization항을 추가, 최종 손실함수가 최소화가 되게 하는 W를 구하기 위한 Optimization까지 배울 수 있다. 1. Loss Function 최적의 W 구하는 방법 ⇒ 최적의 알고리즘과 최적의 W를 결정하기 위해서는 만든 W가 좋은지 나쁜지를 정량화 할 방법이 필요하다. 손실함수 = W를 입력받아서 각 score 확인하고 이 W가 지금 얼마나 나쁜지 정량적으로 말해주 는 것 ▪ 손실함수 L_i 정의 : 예측함수 f와 정답 값 Y를 입력으로 받아서 train 샘플을 얼마나 나쁘게 예측하는지를 정량화 시킨 값을 제공 최종 손실(Lo.. 2023. 5. 23. [CS231n-Lecture 2] Image Classification 이미지 분류(Image Classification)는 컴퓨터 비전에서 매우 중요한 작업이지만, 컴퓨터에겐 매우 어려운 일이다. 이 강의에선 왜 이미지 분류가 어려운지, 데이터 중심 접근법인 NN과 K-NN 분류기는 무엇인지, 마지막으로 Linear classification대해 간략히 배울 수 있다. [이미지분류 수행하는 방법] 이미지 입력 -> 컴퓨터는 미리 설정해 놓은 범주 또는 레이블 집합(개, 고양이, 트럭, 비행기 등) 매칭 ⇒ 사람에게는 쉬운 문제처럼 보이지만 기계(컴퓨터)에겐 아주 어려운 문제 ⬇ 1. semantic gap (의미론적 차이) 컴퓨터가 이미지를 볼 때 거대한 격자 모양의 숫자 집합으로 표현 (image pixels = height x width x channel) 각 픽셀은 .. 2023. 5. 18. Fasttext 이용해서 분류 모델 만들기 ✔ google colab에서 실행 ✔ fasttext text classification (텍스트 분류) 사용 https://uiydlop.tistory.com/22 Fasttext classification (텍스트 분류) Facebook's AI Research (FAIR) lab 에서 만든wordembdding과 text classification을 위한 library 294개 언어에 대해서 pretrained model을 제공 레이블이 많고 일부 레이블로 분류해야 하는 짧은 텍스트가 많을 때 정말 잘 uiydlop.tistory.com ✔ 학습데이터로는 https://dacon.io/competitions/open/235597/data 청와대 청원 주제 데이터 이용 1. fattext 설치 !p.. 2023. 5. 17. 이전 1 2 3 4 ··· 7 다음