본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

전체 글178

Development of Funds Based on ETF Analysis and Prediction of Stocks Idea Overview: Utilizing historical quarterly data of individual stocks within a specific sector (semiconductors), machine learning techniques will be applied to predict the data for the upcoming quarters. Using these predicted data, time series analysis will be employed to select stocks within the sector that meet the criteria. These selected stocks will form a portfolio, creating a unique ETF .. 2023. 12. 7.
[딥러닝 자연어처리] 5. 벡터의 유사도 딥러닝을 이용한 자연어처리 입문 # 5. 벡터의 유사도 벡터의 유사도란? 문장과 문서의 유사도 인간: 문서들 간에 동일한 단어가 얼마나 공통적으로 사용되었는지 기계: 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지 (ex: DTM, Word2Vec), 문서간의 단어들의 차이를 어떤 방법으로 계산했는지 (ex: Euclidean distance, Cosine similarity) 1) 코사인 유사도 정의: 두 벡터간의 코사인 각도를 이용하여 구할 수 있는 벡터의 유사도 코사인 유사도는 -1에서 1사이의 값을 가짐 두 벡터의 방향이 동일할 경우: 1 두 벡터의 방향이 180도로 반대일 경우: -1 1에 가까울수록 유사도가 높다고 판단 2) 코사인 유사도 식 코사인 유사도의 장점 예시 > 문서1 : 저는 .. 2023. 12. 6.
[딥러닝 자연어처리] 4. 카운트 기반의 단어 표현 딥러닝을 이용한 자연어처리 입문 #4. 카운트 기반의 단어 표현 1. 다양한 단어의 표현 방법 1. 단어의 표현 방법 국소 표현 - 단어 자체만 보고, 특정값을 맴핑해 단어 표현하는 방법 분산 표현 - 주변을 참고해서 단어 표현하는 방법 ex) puppy, cute, lovely란 단어가 있을 때, 숫자를 mapping → 국소 표현 방법 ↔ 분산 표현 방법 = 단어 표현 위해 주변 단어 참고 puppy란 단어 근처에 cute, lovely가 나오게 되면 → puppy를 이런 단어로 정의하도록 분산 표현은 단어의 뉘앙스를 이해, 표현하도록 함 국소 표현 ⇒ 이산 표현, 분산 표현 ⇒ 연속 표현 (분리 방법과 관련있음) 2. 단어 표현의 카테고리화 뒤에 나오는 Bag of Words ⇒ 국소 표현에 속해... 2023. 12. 5.
[딥러닝 자연어처리] 3. 언어모델 (Language Model) 딥러닝을 이용한 자연어처리 입문 #3. 언어모델 (Language Model) 언어모델이란? 언어 모델(Languagel Model)이란 단어 시퀀스(문장)에 확률을 할당하는 모델 언어 모델이 이전 단어들로부터 다음 단어를 예측하는 일 자연어 처리에서 단어 시퀀스에 확률을 할당하는 일이 왜 필요할까? 주어진 이전 단어들로부터 다음 단어 예측 단어 시퀀스의 확률 하나의 단어를 w, 단어 시퀀스을 대문자 W라고 한다면, n개의 단어가 등장하는 단어 시퀀스 W의 확률은 다음과 같다 다음 단어 등장 확률 1개의 단어가 나열된 상태에서 n번째 단어의 확률 전체 단어 시퀀스 W의 확률은 모든 단어가 예측되고 나서야 알 수 있으므로 단어 시퀀스의 확률은 다음과 같음 N-gram 언어 모델 통계적 접근을 사용하고 있음.. 2023. 12. 4.
[딥러닝 자연어처리] 2-2. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-2. 텍스트 전처리 (Text Preprocessing) 06) 정수 인코딩(Integer Encoding) 컴퓨터는 텍스트보다는 숫자를 더 잘 처리할 수 있음. 특정 단어들과 매핑되는 고유한 정수, 인덱스를 부여하는 것 1. 정수 인코딩 Dictionary 사용하기 from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize from nltk.corpus import stopwords raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret .. 2023. 12. 1.
[딥러닝 자연어처리] 2-1. 텍스트 전처리 (Text Preprocessing) 딥러닝을 이용한 자연어처리 입문 #2-1. 텍스트 전처리 (Text Preprocessing) 01) 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 1. 단어 토큰화 (Word Tokenization) 토큰의 기준을 단어(word)로 하는 경우 입력: **Time is an illusion. Lunchtime double so!** 출력: "Time", "is", "an", "illusion", "Lunchtime", "double", "so" 2. 토큰화 중 생기는 순간 토큰화를 진행하다보면, 예상치 못한 경우가 발생하여 토큰화의 기준을 설정하는 것이 필요 분석자가 기준을 정해서 토큰화를 수행 3. 토큰화에서 고려해야할 사항 구두점이나 .. 2023. 11. 30.
[딥러닝 자연어처리] 1. 자연어처리란? 딥러닝을 이용한 자연어처리 입문 #1. 자연어처리란? 자연어 (Natural Language)는 우리가 일상 생활에서 사용하는 언어를 의미. 이는 음성 인식, 번역, 감성 분석, 텍스트 분류 작업, 질의 응답 시스템, 챗봇과 같은 자연어 처리 (Natural Language Processing) 작업에 활용. 이러한 작업들은 방대한 데이터 양을 가진 데이터프레임을 간단하게 탐색할 수 있도록 함 판다스 프로파일링 (Pandas-Profiling)은 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 수행. 이 도구는 데이터프레임을 분석하여 데이터의 특성을 요약하고 시각화하여 데이터를 더 잘 이해할 수 있도록 돕는다. pip install -U pandas-profiling #스팸 메일 분류 데이.. 2023. 11. 29.
[IT]호주 시장 조사 및 통계 서비스 - Disha Kartik Jeswanth 요약 업계는 시장 조사 및 관련 서비스에 대한 수요가 수년간 혼합되어 실적이 저조했다. 업계 수익은 지난 5년 동안 연평균 0.6% 감소했으며, 2023~24년에는 총 34억 달러에 이를 것으로 예상되며, 이때 수익은 2.3% 증가할 것이다. 전반적인 수익 감소는 코로나19 팬데믹과 ABS 자금 변동에 따른 불확실성과 수요 변화로 인한 전년도 혼합 성장에 기인할 수 있다. 업계 수익은 주로 연방 정부의 ABS 자금 변동으로 인해 해마다 높은 변동성을 보인다. 이전에 산업 비즈니스를 이용했던 일부 기업에서는 시장 조사 및 통계 분석 서비스를 자체적으로 수행하는 경우가 늘어나고 있다. 많은 외부 회사가 기술 및 데이터 수집 기능을 개선하여 이러한 활동을 내부적으로 .. 2023. 11. 22.
호주 수산물 시장 동향_호주 어업, 지속 가능성과 혁신으로 성장 중 생선 및 해산물 도매업체는 최근 몇 년간 어려운 운영 환경에 직면해 있다. 도매 우회로 인해 업계 수익이 감소했다. 특히, 주요 슈퍼마켓인 Coles, Woolworths 및 ALDI는 공급망에 대한 통제력을 높이고 비용을 절감하기 위해 수직으로 통합된 생선 및 해산물 운영업체로부터 직접 해산물을 구매하는 경우가 점점 더 늘어나고 있다. 전염병은 또한 공급망을 혼란에 빠뜨리고 식품 서비스 부문의 다운스트림 수요에 부정적인 영향을 미쳤다. 업계 매출은 2022~23년까지 5년간 연평균 1.5%씩 감소해 약 47억 달러에 이를 것으로 예상된다. 이러한 추세에는 재량 소득과 인플레이션으로 인해 실질 수익 성장이 감소함에 따라 2022~23년에는 0.5%의 하락이 예상된다. 국내 수산물 가격은 야생 어류 자원의.. 2023. 11. 21.