본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

전체 글178

[이상치 탐지] 논문리뷰 - A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data (2) A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data 본 포스팅은 비지도학습이며 이상치 탐색, 시계열이라는 세가지 키워드를 가진 논문이다. 앞으로 진행할 이상치 탐색에 있어서 필요한 논문이며 AAAI-19에서 발행된 논문이다. 3. Characterizing Status with Signature Matrices 이전 연구는 서로 다른 시계열 쌍 간의 상관관계가 시스템 상태를 특성화 하는데 중요하다고 제안. t-w에서 t까지의 다변량 시계열 세그먼트에서 서로 다른 시계열 쌍 간의 상호 상관을 나타내기 위해 두 시계열의 쌍 별 내적을 기반으로 n x n 시그니처 행렬 Mt를 .. 2022. 3. 5.
[이상치 탐지] 논문리뷰 - A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data (1) A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data 본 포스팅은 비지도학습이며 이상치 탐색, 시계열이라는 세가지 키워드를 가진 논문이다. 앞으로 진행할 이상치 탐색에 있어서 필요한 논문이며 AAAI-19에서 발행된 논문이다. 앞으로 3-4번에 걸쳐 포스팅될 예정이며, 마지막 포스팅에는 요약을 적을 예정이다. 0. Abstract 다변수 시계열 데이터는 발전소, 웨어러블 장치 등과 같은 다양한 실제 시스템에서 점점 더 많이 수집되고 있다. 다변수 시계열의 이상 감지 및 진단은 특정 시간 단계에서 비정상 상태를 식별하고 근본 원인을 찾아내는 것을 의미한다. 그러나 이러한 시스.. 2022. 2. 25.
[2022 동계 인턴십]암예측 최종 https://honeyofdata.tistory.com/30 [2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 A.. honeyofdata.tistory.com 위 포스팅에서 받은 피드백을 바탕으로 진행하였고 최종적으로 마무리할 수 있었다. 연구주제 및 내용 부스팅 기법을 사용하여 암 질병률의 연관성을 분석 및 예측한다. 각종 질병 중 ‘LUNG’(폐암)을 선택하여 연구를 진행했다. 데이터 전처리 위 feature들은 phenotype.. 2022. 2. 20.
Optuna: A hyperparameter optimization framework optuna는 2022 동계 인턴십을 진행하는 와중, GridsearchCV 등을 탐색하다 발견한 automl의 소프트웨어 프레임워크의 일종이다. 최근 뜨기 시작한 automl의 발전하는 단계 중 일환으로 생각하고 있고, 이번에 사용해보기로 하면서 optuna에 대해 공부를 해봤다. https://optuna.readthedocs.io/en/stable/ Optuna: A hyperparameter optimization framework — Optuna 2.10.0 documentation Optuna: A hyperparameter optimization framework Optuna is an automatic hyperparameter optimization software framework, p.. 2022. 2. 20.
[2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피 honeyofdata.tistory.com 이전 포스팅으로 중간 발표를 하였지만... 역시나 문제점이 많은 코드였다. 대략 이런식으로 발표를 하였고, 부끄럽지만 좋지 않은 결과를 내었기에 다시 처음부터 시작하기로 마음먹었다. 일단 피드백과 내가 찾은 문제점에 대한 해답을 적으려고 한다. 1. 데이터 전처리 과정에 있어 필요한 부분을 가공해야한다고 생각했다. - PCAN00.. 2022. 2. 19.
[2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피처를 갖고있다.)로만 진행했을 때의 AUC값 data3은 phenotype에 genotype을 더했을 때의 AUC값을 구하려고 진행했다. data1=pd.read_csv('./phenotype_1000.txt',engine="python",sep=" ") data2=pd.read_csv('./KCPS_r2_0.01_1000.csv') for i in range(2,15190): data2.columns.values[i]=i data2의 칼럼에 숫자를 부여하여 진행하였고.. 2022. 2. 19.
[Dacon study] 2. 타이타닉 생존자 예측 이번에는 두번째로 데이콘과 캐글에서 유명한 타이타닉 생존자 예측을 하였다. https://dacon.io/competitions/open/235539/data [재난] 타이타닉 : 누가 살아남았을까? - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 타이타닉은 역사상 가장 유명한 난파선 중 하나로, 어떤 승객이 생존했을지 예측하는 대회이다. 데이터 설명 movies_train.csv / movies_test.csv PassengerID : 탑승객 고유 아이디 Survival : 탑승객 생존 유무 (0: 사망, 1: 생존) Pclass : 등실의 등급 Name : 이름 Sex : 성별 Age : 나이 Sibsp : 함께 탐승한 형제자매, 아내, 남편의 수 Parch : 함께.. 2022. 2. 19.
[2022 동계 인턴십] WinSCP 사용법! 교수님과 일주일에 한번씩 미팅하며 1000개의 데이터로만 사용했었다. 5주차가 되고나서 약 16000개에 해당하는 데이터를 사용하게 되었고 , 원격으로 연구실에 있는 컴퓨터와 연결할 수 있는 프로그램을 깔고 코드를 진행하게 되었다. WinSCP 다운로드 및 설치 https://winscp.net/eng/download.php WinSCP :: Official Site :: Download WinSCP 5.19 Download WinSCP 5.19 is a major application update. New features and enhancements include: A complete list of files that are part of a background transfer can be shown.. 2022. 2. 19.
[2022 동계 인턴십]암예측 4 이전에서 포스팅한 내용에서 중요도(feature_importance)를 0.5까지 잘라서 시행했다. #폐암 features=['LUNG','STOMA','COLON','LIVER','LUNG','PROST','THROI','BREAC','RECTM'] y_df =df['LUNG'] #X_df =df.drop(features, axis=1) X_df =df[['AGE_B','GOT_B','SBP_B','LDL_B','HDL_B','DBP_B','CHO_B','WT_B','FBS_B','GPT_B']] X_train, X_test, y_train, y_test = train_test_split(X_df, y_df, test_size=0.2, random_state=156) print(X_train.shape.. 2022. 2. 16.