본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

머신러닝30

[딥러닝 자연어처리] 3. 언어모델 (Language Model) 딥러닝을 이용한 자연어처리 입문 #3. 언어모델 (Language Model) 언어모델이란? 언어 모델(Languagel Model)이란 단어 시퀀스(문장)에 확률을 할당하는 모델 언어 모델이 이전 단어들로부터 다음 단어를 예측하는 일 자연어 처리에서 단어 시퀀스에 확률을 할당하는 일이 왜 필요할까? 주어진 이전 단어들로부터 다음 단어 예측 단어 시퀀스의 확률 하나의 단어를 w, 단어 시퀀스을 대문자 W라고 한다면, n개의 단어가 등장하는 단어 시퀀스 W의 확률은 다음과 같다 다음 단어 등장 확률 1개의 단어가 나열된 상태에서 n번째 단어의 확률 전체 단어 시퀀스 W의 확률은 모든 단어가 예측되고 나서야 알 수 있으므로 단어 시퀀스의 확률은 다음과 같음 N-gram 언어 모델 통계적 접근을 사용하고 있음.. 2023. 12. 4.
[딥러닝 자연어처리] 2-2. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-2. 텍스트 전처리 (Text Preprocessing) 06) 정수 인코딩(Integer Encoding) 컴퓨터는 텍스트보다는 숫자를 더 잘 처리할 수 있음. 특정 단어들과 매핑되는 고유한 정수, 인덱스를 부여하는 것 1. 정수 인코딩 Dictionary 사용하기 from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize from nltk.corpus import stopwords raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret .. 2023. 12. 1.
[딥러닝 자연어처리] 2-1. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-1. 텍스트 전처리 (Text Preprocessing) 01) 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 1. 단어 토큰화 (Word Tokenization) 토큰의 기준을 단어(word)로 하는 경우 입력: **Time is an illusion. Lunchtime double so!** 출력: "Time", "is", "an", "illusion", "Lunchtime", "double", "so" 2. 토큰화 중 생기는 순간 토큰화를 진행하다보면, 예상치 못한 경우가 발생하여 토큰화의 기준을 설정하는 것이 필요 분석자가 기준을 정해서 토큰화를 수행 3. 토큰화에서 고려해야할 사항 구두점이나 .. 2023. 11. 30.
[딥러닝 자연어처리] 1. 자연어처리란? 딥러닝을 이용한 자연어처리 입문 #1. 자연어처리란? 자연어 (Natural Language)는 우리가 일상 생활에서 사용하는 언어를 의미. 이는 음성 인식, 번역, 감성 분석, 텍스트 분류 작업, 질의 응답 시스템, 챗봇과 같은 자연어 처리 (Natural Language Processing) 작업에 활용. 이러한 작업들은 방대한 데이터 양을 가진 데이터프레임을 간단하게 탐색할 수 있도록 함 판다스 프로파일링 (Pandas-Profiling)은 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 수행. 이 도구는 데이터프레임을 분석하여 데이터의 특성을 요약하고 시각화하여 데이터를 더 잘 이해할 수 있도록 돕는다. pip install -U pandas-profiling #스팸 메일 분류 데이.. 2023. 11. 29.
#공부일지 1_2. Introduction to Machine Learning in Production (Coursera) Deployment Key challenges 머신러닝 모델을 배포하는데 두 가지 주요 범주의 문제가 있다. 첫 번째는 머신러닝 또는 통계적 문제이고, 두 번째는 소프트웨어 엔진 문제이다. 시스템을 성공적으로 배포하기 위해 수행해야 하는 작업을 이해할 수 있어야한다. 많은 배포의 과제 중 하나는 개념 드리프트와 데이터 드리프트이다. 음성 인식의 예를 들자면, 데이터 세트에서 음성 인식 시스템을 교육한 후 테스트 세트에서 평가할 수 있지만 시간이 지남에 따라 음성 데이터가 변경되기 때문에 음성 인식 시스템을 구축할 때 지난 몇 개월 동안의 데이터로 구성된 검증 세트와 테스트 세트를 유지해야한다. 시스템에 갑작스러운 충격이 가해지면 데이터가 갑자기 변경되는 경우가 있다. 예를 들어 코로나 19 팬데믹이 닥쳤.. 2022. 11. 16.
#공부일지 1_1. Introduction to Machine Learning in Production (Coursera) A conversation with Andrew Ng, Robert Crowe and Laurence Moroney Specialization overview 프로젝트 범위 지정에서 데이터, 모델링, 배포에 이르기까지 전체 머신러닝 프로젝트 수명 주기에 대해 배우게 된다. 이 모든 작업을 수행하기 위한 프로세스 및 도구를 MLOps 또는 머신러닝 작업이라고 부른다. 강사진 Andrew Ng : Coursera 창업자 Robert Crowe : Google, TensorFloew 개발자이자 Google 엔지니어 Laurence Moroney : Google에서 AI advocacy를 이끌고 딥러닝AI를 사용하는 Tensorflow 전문 분야의 강사 The Machine Learning Project Lif.. 2022. 11. 16.