[딥러닝 자연어처리] 1. 자연어처리란?

딥러닝을 이용한 자연어처리 입문

#1. 자연어처리란?

자연어 (Natural Language)는 우리가 일상 생활에서 사용하는 언어를 의미.

이는 음성 인식, 번역, 감성 분석, 텍스트 분류 작업, 질의 응답 시스템, 챗봇과 같은 자연어 처리 (Natural Language Processing) 작업에 활용. 이러한 작업들은 방대한 데이터 양을 가진 데이터프레임을 간단하게 탐색할 수 있도록 함

판다스 프로파일링 (Pandas-Profiling)은 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 수행.

이 도구는 데이터프레임을 분석하여 데이터의 특성을 요약하고 시각화하여 데이터를 더 잘 이해할 수 있도록 돕는다.

pip install -U pandas-profiling

#스팸 메일 분류 데이터 불러오기

import pandas as pd
import pandas_profiling
data = pd.read_csv('spam.csv', encoding='latin1')

data[:5]

#리포트 생성하기

pr=data.profile_report()  # 프로파일링 결과 리포트를 pr에 저장
pr.to_file('./pr_report.html') # pr_report.html 파일로 저장

1) 개요(Overview)

데이터의 전체적인 개요
데이터의 크기, 변수의 수, 결측값(missing value) 비율, 데이터의 종류 등

2) 변수(Variables)

데이터에 존재하는 모든 특성 변수들에 대한 결측값, Unique Values의 개수 등의 통계치를 보여줌
상위 5개의 값에 대해서는 우측에 바 그래프로 시각화

3) 상세사항 확인하기(Toggle details)

빈도값(Common values), 구성(Composition) 탭 제공
수치형 데이터를 위한 상관계수, 결측값에 대한 히트맵, 수치도 등을 지원

머신 러닝 워크플로우(Machine Learning Workflow)

1. 수집 (Acquisition)

머신 러닝을 위해서는 학습에 사용할 데이터가 필요
자연어 처리에서는 이러한 데이터를 말뭉치 또는 코퍼스(corpus)라고 함

2. 점검 및 탐색 (Inspection and Exploration)

데이터를 점검하고 탐색하는 단계
데이터의 구조, 노이즈 데이터, 머신 러닝 적용을 위해 데이터를 어떻게 정제할지를 파악
이 단계를 탐색적 데이터 분석(Exploratory Data Analysis, EDA)라고 함

3. 전처리 및 정제 (Preprocessing and Cleaning)

데이터 전처리 과정을 의미
자연어 처리에서는 토큰화, 정제, 정규화, 불용어 제거 등의 과정을 포함

4. 모델링 및 훈련 (Modeling and Training)

머신 러닝 모델을 구축하는 단계
모델링을 위한 코드를 작성하고, 데이터를 적절한 머신 러닝 알고리즘에 적용하여 기계에 학습
훈련이 완료되면 우리가 원하는 자연어 처리 작업(기계 번역, 음성 인식, 텍스트 분류 등)을 수행할 수 있음
모든 데이터를 기계에 학습시키는 것이 아니라 일부는 검증과 테스트를 위해 보류됨

5.평가 (Evaluation)

학습이 완료된 후에는 테스트용 데이터로 모델의 성능을 평가
평가 방법은 예측한 데이터와 테스트용 데이터의 실제 정답과의 유사성을 측정

6. 배포 (Deployment)

완성된 모델이 배포되는 단계
훈련된 모델을 실제 환경에서 사용할 수 있도록 배포하고 적용

저작자표시 변경금지

'공부하는 습관을 들이자 > Deep Learning (NLP,LLM)' 카테고리의 다른 글

[딥러닝 자연어처리] 5. 벡터의 유사도 (0)	2023.12.06
[딥러닝 자연어처리] 4. 카운트 기반의 단어 표현 (0)	2023.12.05
[딥러닝 자연어처리] 3. 언어모델 (Language Model) (0)	2023.12.04
[딥러닝 자연어처리] 2-2. 텍스트 전처리 (Text Preprocessing) (0)	2023.12.01
[딥러닝 자연어처리] 2-1. 텍스트 전처리 (Text Preprocessing) (0)	2023.11.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터스트

[딥러닝 자연어처리] 1. 자연어처리란?

딥러닝을 이용한 자연어처리 입문

#1. 자연어처리란?

1) 개요(Overview)

2) 변수(Variables)

3) 상세사항 확인하기(Toggle details)

머신 러닝 워크플로우(Machine Learning Workflow)

'공부하는 습관을 들이자 > Deep Learning (NLP,LLM)' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[딥러닝 자연어처리] 1. 자연어처리란?

딥러닝을 이용한 자연어처리 입문

#1. 자연어처리란?

1) 개요(Overview)

2) 변수(Variables)

3) 상세사항 확인하기(Toggle details)

머신 러닝 워크플로우(Machine Learning Workflow)

'공부하는 습관을 들이자 > Deep Learning (NLP,LLM)' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역