본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

공부하는 습관을 들이자/Deep Learning (NLP,LLM)22

[딥러닝 자연어처리] 7. 머신 러닝 개요 7) ~ 9) 딥러닝을 이용한 자연어처리 입문 # 7. 머신 러닝 개요 7) ~ 9) 7) 다중 입력에 대한 실습 크로스 엔트로피 함수를 이용해서 이를 이용해 가중치를 찾고, 가중치는 크로스 엔트로피 함수의 평균을 이용한 방식으로 사용. 크로스 엔트로피 함수는 소프트맥스 회귀의 비용 함수 import numpy as np from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense from tensorflow.keras import optimizers # 중간 고사, 기말 고사, 가산점 점수 X = np.array([[70,85,11], [71,89,18], [50,80,20], [99,20,10], [50,10,10]].. 2023. 12. 13.
[딥러닝 자연어처리] 7. 머신 러닝 개요 4) ~ 6) 딥러닝을 이용한 자연어처리 입문 # 7. 머신 러닝 개요 4) ~ 6) 4) 자동 미분과 선형 회귀 실습 1. 자동 미분 tape_gradient() : 자동 미분 기능 수행 import tensorflow as tf w = tf.Variable(2.) def f(w): y = w**2 z = 2*y + 5 return z #gradients: w에 대해 미분한 값이 저장 with tf.GradientTape() as tape: z = f(w) gradients = tape.gradient(z, [w]) print(gradients) # [] 2. 자동 미분을 이용한 선형 회귀 구현 # 학습될 가중치 변수를 선언 w = tf.Variable(4.0) b = tf.Variable(1.0) #가설을 함수로 .. 2023. 12. 12.
[딥러닝 자연어처리] 7. 머신 러닝 개요 1) ~ 3) 딥러닝을 이용한 자연어처리 입문 # 7. 머신 러닝 개요 1) ~ 3) 1) 머신러닝이란 해결을 위한 접근 방식이 기존의 프로그래밍 방식과는 다름 머신 러닝은 데이터가 주어지면, 기계가 스스로 데이터로부터 규칙성을 찾는 것에 집중함 주어진 데이터로부터 규칙성을 찾는 과정을 훈련(training)또는 학습(learning)이라고 함 2) 머신 러닝 훑어보기 1. 머신 러닝 모델의 평가 학습하기 전에 데이터를 훈련용, 검증용, 테스트용 이렇게 세 가지로 분리함 훈련데이터: 머신 러닝 모델을 학습하는 용도 테스트데이터: 학습한 머신 러닝 모델의 성능을 평가하기 위한 용도 검증용데이터: 모델의 성능을 조정하기 위한 용도 → 모델이 훈련 데이터에 과적합이 되고 있는지 판단하거나 하이퍼파라미터의 조정을 위한 용도 .. 2023. 12. 11.
[딥러닝 자연어처리] 6-1. 토픽 모델링 딥러닝을 이용한 자연어처리 입문 # 6-1. 토픽 모델링 토픽 모델링 : 기계 학습이나 자연어 처리 분야에서 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 1) 잠재 의미 분석 (Latent Semantic Analysis, LSA) LSA : 토픽 모델링을 위한 최적화 알고리즘 x LDA : LSA의 단점을 보완한 최적화 알고리즘 o DTM or TF-IDF : 단어의 빈도 수를 이용한 수치화 방법 → 단어의 의미 고려하지 못함 ⇒ 대안 = LSA : DTM의 의미를 이끌어내는 방법(잠재 의미 분석) ⇒ 특이값 분해(SVD) 특이값 분해(Singular Value Decomposition, SVD) A = m x n 행렬 → 3개의 행렬의 곱으로 분해 직교행렬 : 자신과 .. 2023. 12. 8.
[딥러닝 자연어처리] 5. 벡터의 유사도 딥러닝을 이용한 자연어처리 입문 # 5. 벡터의 유사도 벡터의 유사도란? 문장과 문서의 유사도 인간: 문서들 간에 동일한 단어가 얼마나 공통적으로 사용되었는지 기계: 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지 (ex: DTM, Word2Vec), 문서간의 단어들의 차이를 어떤 방법으로 계산했는지 (ex: Euclidean distance, Cosine similarity) 1) 코사인 유사도 정의: 두 벡터간의 코사인 각도를 이용하여 구할 수 있는 벡터의 유사도 코사인 유사도는 -1에서 1사이의 값을 가짐 두 벡터의 방향이 동일할 경우: 1 두 벡터의 방향이 180도로 반대일 경우: -1 1에 가까울수록 유사도가 높다고 판단 2) 코사인 유사도 식 코사인 유사도의 장점 예시 > 문서1 : 저는 .. 2023. 12. 6.
[딥러닝 자연어처리] 4. 카운트 기반의 단어 표현 딥러닝을 이용한 자연어처리 입문 #4. 카운트 기반의 단어 표현 1. 다양한 단어의 표현 방법 1. 단어의 표현 방법 국소 표현 - 단어 자체만 보고, 특정값을 맴핑해 단어 표현하는 방법 분산 표현 - 주변을 참고해서 단어 표현하는 방법 ex) puppy, cute, lovely란 단어가 있을 때, 숫자를 mapping → 국소 표현 방법 ↔ 분산 표현 방법 = 단어 표현 위해 주변 단어 참고 puppy란 단어 근처에 cute, lovely가 나오게 되면 → puppy를 이런 단어로 정의하도록 분산 표현은 단어의 뉘앙스를 이해, 표현하도록 함 국소 표현 ⇒ 이산 표현, 분산 표현 ⇒ 연속 표현 (분리 방법과 관련있음) 2. 단어 표현의 카테고리화 뒤에 나오는 Bag of Words ⇒ 국소 표현에 속해... 2023. 12. 5.