본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
연구 활동/Github README

KRX-Financial-BigData-Idea

by 꿀먹은데이터 2024. 1. 9.

Idea Title: Development of Funds Based on ETF Analysis and Prediction of Stocks
(ETF 종목 분석 및 예측을 통한 펀드 개발)

Idea Overview:

  • Utilizing historical quarterly data of individual stocks within a specific sector (semiconductors), machine learning techniques will be applied to predict the data for the upcoming quarters. Using these predicted data, time series analysis will be employed to select stocks within the sector that meet the criteria. These selected stocks will form a portfolio, creating a unique ETF product which will be developed and launched.

Proposal Background and Objectives:

  • This methodology, applicable across various sectors, has been specifically applied to the semiconductor sector, which is one of South Korea's key industries and plays a significant global role. The active growth of the semiconductor industry serves as an exemplary model. Out of 134 stocks listed in the semiconductor sector on KOSPI and KOSDAQ, 46 stocks included in three large ETFs were selected. Based on this selection, a portfolio will be constructed through data analysis and prediction. The purpose of this proposal is to suggest the development of an innovative investment product, providing investors with a unique opportunity.
  • In situations where accessing individual company data is challenging, we have chosen to utilize time-series data regularly published, such as business reports, to analyze quarterly data for each stock. This approach involves grouping observed results based on specific criteria, defining it as collective data. The use of collective data is essential because accessing individual data is often difficult. Time-series data, obtainable from various high-quality sources like statistical reports, is relatively easy to acquire.
  • Additionally, we opted for time-series analysis due to its historical application in predicting volatility. These models offer quantitative methods for accurate analysis and systematically explaining market phenomena based on statistical reasoning (Reference: No Tae-Hyup et al., "Forecasting Volatility of KOSPI 200 Stock Index Using Artificial Neural Networks and Financial Time Series Models"). Moreover, challenges arose in regression analysis due to intercorrelation among independent variables, leading to high RMSE in the regression analysis results, which could produce inaccurate predictions. To mitigate this issue, we employed various models for analysis, ultimately selecting the CatBoost model with the smallest RMSE among XGBoost, CatBoost, LgBM, and AdaBoost.
  • The ultimate goal of this idea is to transform it into a form that can be effectively utilized in the market, creating an investment product accessible to a wide range of investors, similar to a publicly offered fund.

Utilized Data

  • The analysis was based on six key financial metrics (assets, liabilities, equity, revenue, operating income, net income) from semiconductor ETFs from the first quarter of 2019 to the fourth quarter of 2021. Using this data, eight indicators were derived:
  • Stability Indicators (%)
    • Debt Ratio: (Total Debt / Total Equity) * 100
    • Equity Ratio: (Total Equity / Total Assets) * 100
  • Profitability Indicators (%)
    • Net Profit Margin: (Net Income / Revenue) * 100
    • Operating Profit Margin: (Operating Income / Revenue) * 100
  • Activity Indicators (%)
    • Total Asset Turnover: Revenue / Total Assets
    • Equity Turnover: Revenue / Total Equity
  • Growth Indicators (%)
    • Operating Income Growth Rate: ((Current Operating Income - Previous Operating Income) / Previous Operating Income) * 100
    • Net Income Growth Rate: ((Current Net Income - Previous Net Income) / Previous Net Income) * 100

Portfolio Construction Method

The portfolio was constructed based on the weighted average scores of the selected 34 stocks. The weights for each stock were adjusted to balance stability, profitability, and growth. Regular rebalancing was performed to optimize the investment portfolio.

Product Differentiation

This project utilized machine learning and time-series analysis, surpassing conventional methods to provide stable and precise predictions. Additionally, the results of the machine learning models were visualized, making them easily understandable even for non-experts. Moreover, this model can be applied not only to the semiconductor sector but also to various industries.

Market Viability and Commercialization Potential

With the growth in the financial market, there is an increasing demand for financial products. This project is accessible to novice investors and offers verified stocks through logical and rational analysis. Thus, it can expand as an investment product that considers both stability and profitability.

Conclusion

This report proposes a comprehensive data analysis and prediction model utilizing machine learning and time-series analysis, driving the innovation of investment products. This balanced product, considering stability, profitability, and growth, is expected to lead the future trends in the financial market.

 

아이디어 명

  • ETF 종목 분석 및 예측을 통한 펀드 개발

아이디어 개요

  • 한가지 섹터(반도체)의 종목별 과거 분기 데이터를 활용하여 머신러닝 기술을 적용하여 다음 분기 데이터를 예측 및 예측된 데이터들을 기반으로 시계열 분석을 이용하여 섹터 내에서 기준에 부합하는 종목들을 선정하고, 이를 포트폴리오로 구성하여 특별한 ETF 상품을 개발하여 출시

아이디어 제안 배경 및 목적

  • 여러 섹터에 적용 가능한 방법론 중 하나로, 그 중 반도체 섹터는 우리나라 주요 산업 중 하나이며, 또한 전 세계적으로 중요한 역할을 하는 반도체 산업의 활발한 성장으로 예시로 삼았음. 이를 위해 KOSPI 와 POSDAQ에 상장된 반도체 섹터에 속하는 134종목 중에서 대형 ETF 3개에 포함된 46종목을 선정함. 이를 토대로 데이터 분석과 예측을 통해 포트폴리오를 구성하여 혁신적인 투자 상품으로 투자자들에게 제공할 목적으로 이 아이디어를 제안
  • 개별 회사의 데이터에 접근하기 어려운 상황에서, 사업보고서와 같은 정기적으로 발행되는 시계열 데이터를 활용하여 종목별 분기 데이터를 분석하는 방법을 선택.이는 집합적 자료로, 관찰 결과를 특정 기준에 따라 그룹화하는 것을 의미. 집합적 자료의 사용 이유는 개별 데이터에 접근하기 어려운 경우가 많기 때문임.
  • 시계열 데이터는 상대적으로 쉽게 얻을 수 있는 고품질 데이터로, 다양한 통계 보고서 등에서 얻을 수 있음.
  • 또한 시계열 분석을 적용한 이유는 이전부터 변동성 예측에 사용되어 왔고, 이러한 모델들은 정량적인 방법으로 정확한 분석이 가능하며 시장 현상을 통계적 논리를 기반으로 체계적으로 설명할 수 있는 장점이 있기 때문임.
    (참고문헌: 노태협 외 2명, "인공신경망-금융시계열 모형을 이용한 KOSPI 200 주가지수의 변동성 예측")
  • 독립 변수들 간의 상관성으로 인해 회귀 분석 결과의 RMSE가 높아 부정확한 예측 결과가 나올 수 있는 문제가 있음. 이러한 오차를 줄이기 위해 다양한 모델을 활용하여 분석하였으며, XGBoost, CatBoost, LgBM, AdaBoost 중에서 RMSE 값이 가장 작은 CatBoost 모델을 선택함.
  • 이 아이디어의 최종 목표는 시장에서 성공적으로 활용 가능한 형태로 만들어 공모펀드와 같이 다수의 투자자에게 접근 가능한 투자 상품(공모펀드)으로 만들어내는 것

활용 데이터

분석에 활용된 데이터는 반도체 ETF 종목 중 19년도 1분기부터 21년도 4분기까지의 주요 계정 6가지(자산, 부채, 자본, 매출, 영업이익, 당기순이익)를 기반. 이 데이터를 기반으로 안정성, 수익성, 활동성, 성장성의 8가지 지표를 도출하였음.

  • 안정성 지표(%)
    • 부채비율 : (부채총계 / 자본총계)*100
    • 자기자본비율 : (자본총계 / 자산총계)*100
  • 수익성 지표(%)
    • 매출액순이익률 : (당기순이익 / 매출액)*100
    • 매출액영업이익률 : (영업이익 / 매출액)*100
  • 활동성 지표(%)
    • 총자산회전율 : 매출액 / 자산총계
    • 자기자본회전율 : 매출액 / 자본총계
  • 성장성 지표(%)
    • 영업이익증가율 : ((당기영업이익 - 전기영업이익)/전기영업이익) * 100
    • 순이익증가율 : ((당기순이익 - 전기순이익) / 전기순이익) * 100
  • 데이터제공

주어진 데이터를 기반으로 부채비율, 자기자본비율, 매출액순이익률, 매출액영업이익률, 총자산회전율, 자기자본회전율, 영업이익증가율, 순이익증가율의 8가지 지표를 도출하였고, 이를 가중평균하여 종합적인 점수로 산출.

펀드 포트폴리오 구성 방법

선정된 34종목의 종합 점수 비율로 포트폴리오를 구성함. 종목별로 가중치를 조절하여 안정성, 수익성, 성장성을 균형 있게 반영하였고, 리벨런싱을 통해 투자 포트폴리오를 최적화.

  • 선정된 종목(34종목)의 종합 점수 비율로 구성 비율 결정
  • 종목별로 0.2%p 차감 후 소수점 둘째 자리에서 반올림
  • 나머지는 위험 대비 현금으로 구성
  • 현금비중 5~10% 유지, 리벨런싱 결과에 따라 차감 비율 조정 가능
  • 한 종목의 비중은 10%를 넘지 않도록 설정(자본시장법 제81조)
  • 리벨런싱 : 3개월 단위(분기보고서 나올때마다 같은 방식으로 적용, 조정)

기존 상품 및 서비스와의 차별성

이 프로젝트는 기존의 방식을 넘어선 머신러닝과 시계열 분석을 활용하여 안정적이고 정확한 예측을 제공. 또한, 머신러닝 모델의 결과를 시각화하여 비전문가도 이해하기 쉽게 제시. 뿐만 아니라, 이 모델은 반도체 섹터 뿐만 아니라 다양한 산업에도 적용 가능.

시장성 및 사업화 가능성

금융 시장의 성장과 함께 금융 상품에 대한 수요도 높아지고 있음. 이 프로젝트는 초보 투자자들에게도 접근 가능하며, 논리적이고 합리적인 분석을 통해 검증된 종목들을 제공함으로써 안정성과 수익성을 동시에 고려한 투자 상품으로 확장될 수 있음.

결론

이 보고서는 머신러닝과 시계열 분석을 통한 종합적인 데이터 분석과 예측 모델을 제안하여 투자 상품의 혁신적인 개발을 추진. 안정성, 수익성, 성장성을 균형 있게 고려한 이 상품은 금융 시장에서의 미래 트렌드를 선도할 것으로 기대됨.

  • 머신러닝 분석을 통해 만들어진 모델을 시각화하여 보여주기 때문에 비전문가도 이해하기 쉬움.
  • 시계열 분석과 머신러닝 회귀 모델을 이용한 지표점수를 반영해 종목을 추천함으로써 기존의 방식보다 더 정확한 예측이 가능함.
  • 같은방식으로 반도체 섹터뿐만 아닌 모든 섹터에 적용할 수 있음.

https://github.com/rootofdata/KRX-Financial-BigData-Idea

 

GitHub - rootofdata/KRX-Financial-BigData-Idea: Development of Funds Based on ETF Analysis and Prediction of Stocks

Development of Funds Based on ETF Analysis and Prediction of Stocks - GitHub - rootofdata/KRX-Financial-BigData-Idea: Development of Funds Based on ETF Analysis and Prediction of Stocks

github.com