본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

토큰화3

[딥러닝 자연어처리] 5. 벡터의 유사도 딥러닝을 이용한 자연어처리 입문 # 5. 벡터의 유사도 벡터의 유사도란? 문장과 문서의 유사도 인간: 문서들 간에 동일한 단어가 얼마나 공통적으로 사용되었는지 기계: 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지 (ex: DTM, Word2Vec), 문서간의 단어들의 차이를 어떤 방법으로 계산했는지 (ex: Euclidean distance, Cosine similarity) 1) 코사인 유사도 정의: 두 벡터간의 코사인 각도를 이용하여 구할 수 있는 벡터의 유사도 코사인 유사도는 -1에서 1사이의 값을 가짐 두 벡터의 방향이 동일할 경우: 1 두 벡터의 방향이 180도로 반대일 경우: -1 1에 가까울수록 유사도가 높다고 판단 2) 코사인 유사도 식 코사인 유사도의 장점 예시 > 문서1 : 저는 .. 2023. 12. 6.
[딥러닝 자연어처리] 2-2. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-2. 텍스트 전처리 (Text Preprocessing) 06) 정수 인코딩(Integer Encoding) 컴퓨터는 텍스트보다는 숫자를 더 잘 처리할 수 있음. 특정 단어들과 매핑되는 고유한 정수, 인덱스를 부여하는 것 1. 정수 인코딩 Dictionary 사용하기 from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize from nltk.corpus import stopwords raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret .. 2023. 12. 1.
[딥러닝 자연어처리] 2-1. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-1. 텍스트 전처리 (Text Preprocessing) 01) 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 1. 단어 토큰화 (Word Tokenization) 토큰의 기준을 단어(word)로 하는 경우 입력: **Time is an illusion. Lunchtime double so!** 출력: "Time", "is", "an", "illusion", "Lunchtime", "double", "so" 2. 토큰화 중 생기는 순간 토큰화를 진행하다보면, 예상치 못한 경우가 발생하여 토큰화의 기준을 설정하는 것이 필요 분석자가 기준을 정해서 토큰화를 수행 3. 토큰화에서 고려해야할 사항 구두점이나 .. 2023. 11. 30.