본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

ML20

[딥러닝 자연어처리] 1. 자연어처리란? 딥러닝을 이용한 자연어처리 입문 #1. 자연어처리란? 자연어 (Natural Language)는 우리가 일상 생활에서 사용하는 언어를 의미. 이는 음성 인식, 번역, 감성 분석, 텍스트 분류 작업, 질의 응답 시스템, 챗봇과 같은 자연어 처리 (Natural Language Processing) 작업에 활용. 이러한 작업들은 방대한 데이터 양을 가진 데이터프레임을 간단하게 탐색할 수 있도록 함 판다스 프로파일링 (Pandas-Profiling)은 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 수행. 이 도구는 데이터프레임을 분석하여 데이터의 특성을 요약하고 시각화하여 데이터를 더 잘 이해할 수 있도록 돕는다. pip install -U pandas-profiling #스팸 메일 분류 데이.. 2023. 11. 29.
[논문리뷰] Machine Learning Can Predict the Timing and Size of Analog Earthquakes Abstract 본 보고서는 실험실에서 임의적으로 만든 지진과 관련된 모습을 머신러닝을 활용하여 예측하는 연구를 다룬다. 실험실에서 생성된 지진의 파형이 미래 지진을 예측하는데 어떻게 활용될 수 있는지에 대한 움직임에 대한 논문 최근의 연구 중에서 부경대학교 연구원이 2020년에 발표한 논문에서는 기계학습을 활용하여 지진 취약성을 평가하고 매핑하는 방법을 소개했음. 특히, 9.12 경주지진을 대상으로 한 이 연구는 지진 발생 시 건축물의 취약성을 사전에 예측하고 평가하는 데 주목할 만한 성과를 이루어냈음. 이와 비슷한 류의 논문으로 파악 Introduction: 최근 거대 지진의 발생 빈도가 증가하고 있는 가운데, 실험실에서는 일부 지진들이 예측이 어려운 경우도 있다. 특히, 2011년의 일본 대지진과 .. 2023. 11. 14.
#1. [Coursera] 2-2 / Machine Learning Data Lifecycle in Production (GDSC) https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production/home/week/1 Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Speciali.. 2022. 11. 30.
#1. [Coursera] 2-1 / Machine Learning Data Lifecycle in Production (GDSC) https://www.coursera.org/learn/machine-learning-data-lifecycle-in-production/home/welcome Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Special.. 2022. 11. 30.
#공부일지 1_2. Introduction to Machine Learning in Production (Coursera) Deployment Key challenges 머신러닝 모델을 배포하는데 두 가지 주요 범주의 문제가 있다. 첫 번째는 머신러닝 또는 통계적 문제이고, 두 번째는 소프트웨어 엔진 문제이다. 시스템을 성공적으로 배포하기 위해 수행해야 하는 작업을 이해할 수 있어야한다. 많은 배포의 과제 중 하나는 개념 드리프트와 데이터 드리프트이다. 음성 인식의 예를 들자면, 데이터 세트에서 음성 인식 시스템을 교육한 후 테스트 세트에서 평가할 수 있지만 시간이 지남에 따라 음성 데이터가 변경되기 때문에 음성 인식 시스템을 구축할 때 지난 몇 개월 동안의 데이터로 구성된 검증 세트와 테스트 세트를 유지해야한다. 시스템에 갑작스러운 충격이 가해지면 데이터가 갑자기 변경되는 경우가 있다. 예를 들어 코로나 19 팬데믹이 닥쳤.. 2022. 11. 16.
#공부일지 1_1. Introduction to Machine Learning in Production (Coursera) A conversation with Andrew Ng, Robert Crowe and Laurence Moroney Specialization overview 프로젝트 범위 지정에서 데이터, 모델링, 배포에 이르기까지 전체 머신러닝 프로젝트 수명 주기에 대해 배우게 된다. 이 모든 작업을 수행하기 위한 프로세스 및 도구를 MLOps 또는 머신러닝 작업이라고 부른다. 강사진 Andrew Ng : Coursera 창업자 Robert Crowe : Google, TensorFloew 개발자이자 Google 엔지니어 Laurence Moroney : Google에서 AI advocacy를 이끌고 딥러닝AI를 사용하는 Tensorflow 전문 분야의 강사 The Machine Learning Project Lif.. 2022. 11. 16.