본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

전처리3

[딥러닝 자연어처리] 2-2. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-2. 텍스트 전처리 (Text Preprocessing) 06) 정수 인코딩(Integer Encoding) 컴퓨터는 텍스트보다는 숫자를 더 잘 처리할 수 있음. 특정 단어들과 매핑되는 고유한 정수, 인덱스를 부여하는 것 1. 정수 인코딩 Dictionary 사용하기 from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize from nltk.corpus import stopwords raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret .. 2023. 12. 1.
[딥러닝 자연어처리] 2-1. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-1. 텍스트 전처리 (Text Preprocessing) 01) 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 1. 단어 토큰화 (Word Tokenization) 토큰의 기준을 단어(word)로 하는 경우 입력: **Time is an illusion. Lunchtime double so!** 출력: "Time", "is", "an", "illusion", "Lunchtime", "double", "so" 2. 토큰화 중 생기는 순간 토큰화를 진행하다보면, 예상치 못한 경우가 발생하여 토큰화의 기준을 설정하는 것이 필요 분석자가 기준을 정해서 토큰화를 수행 3. 토큰화에서 고려해야할 사항 구두점이나 .. 2023. 11. 30.
[이상치 탐지] EDA for data(2min) 본 센서는 ver1,ver2,ver3으로 구성되어있으며 가스를 측정하는데 있어 주기가 2분인 센서의 데이터를 가져왔다. 'AI 데이터 연구단'에서 자체적으로 개발한 센서이며 , TVOC,CO2,미세먼지 등 실내 공기의 질을 측정하는 센서이다. 데이터를 측정하는 센서에 따라 시간의 주기가 맞지 않을 때가 있다. 보통 시간의 주기를 1min으로 하면 센서의 시간에 따른 정교성이 부족하다면. 1분 5초에 따라 측정할 수도 있고, 1분 10초 마다 센서로 측정할 수 있어 이를 조정해주는 작업이 필요하다. .. 센서를 정교하게 잘 만든다면 이런 일이 안벌어지지 않을까..?? 이 부분은 결함이 일어날 수도 있다고 생각하고 EDA를 진행하였다. 본 데이터는 2분마다 가스를 측정하는 센서로 TS2,CH2O, 미세먼지 .. 2022. 4. 28.