본문 바로가기

데이터에 가치를 더하다, 서영석입니다.

연구 활동30

[이상치 탐지] 논문리뷰 - A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data (2) A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data 본 포스팅은 비지도학습이며 이상치 탐색, 시계열이라는 세가지 키워드를 가진 논문이다. 앞으로 진행할 이상치 탐색에 있어서 필요한 논문이며 AAAI-19에서 발행된 논문이다. 3. Characterizing Status with Signature Matrices 이전 연구는 서로 다른 시계열 쌍 간의 상관관계가 시스템 상태를 특성화 하는데 중요하다고 제안. t-w에서 t까지의 다변량 시계열 세그먼트에서 서로 다른 시계열 쌍 간의 상호 상관을 나타내기 위해 두 시계열의 쌍 별 내적을 기반으로 n x n 시그니처 행렬 Mt를 .. 2022. 3. 5.

[이상치 탐지] 논문리뷰 - A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data (1) A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data 본 포스팅은 비지도학습이며 이상치 탐색, 시계열이라는 세가지 키워드를 가진 논문이다. 앞으로 진행할 이상치 탐색에 있어서 필요한 논문이며 AAAI-19에서 발행된 논문이다. 앞으로 3-4번에 걸쳐 포스팅될 예정이며, 마지막 포스팅에는 요약을 적을 예정이다. 0. Abstract 다변수 시계열 데이터는 발전소, 웨어러블 장치 등과 같은 다양한 실제 시스템에서 점점 더 많이 수집되고 있다. 다변수 시계열의 이상 감지 및 진단은 특정 시간 단계에서 비정상 상태를 식별하고 근본 원인을 찾아내는 것을 의미한다. 그러나 이러한 시스.. 2022. 2. 25.

[2022 동계 인턴십]암예측 최종 https://honeyofdata.tistory.com/30 [2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 A.. honeyofdata.tistory.com 위 포스팅에서 받은 피드백을 바탕으로 진행하였고 최종적으로 마무리할 수 있었다. 연구주제 및 내용 부스팅 기법을 사용하여 암 질병률의 연관성을 분석 및 예측한다. 각종 질병 중 ‘LUNG’(폐암)을 선택하여 연구를 진행했다. 데이터 전처리 위 feature들은 phenotype.. 2022. 2. 20.

Optuna: A hyperparameter optimization framework optuna는 2022 동계 인턴십을 진행하는 와중, GridsearchCV 등을 탐색하다 발견한 automl의 소프트웨어 프레임워크의 일종이다. 최근 뜨기 시작한 automl의 발전하는 단계 중 일환으로 생각하고 있고, 이번에 사용해보기로 하면서 optuna에 대해 공부를 해봤다. https://optuna.readthedocs.io/en/stable/ Optuna: A hyperparameter optimization framework — Optuna 2.10.0 documentation Optuna: A hyperparameter optimization framework Optuna is an automatic hyperparameter optimization software framework, p.. 2022. 2. 20.

[2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피 honeyofdata.tistory.com 이전 포스팅으로 중간 발표를 하였지만... 역시나 문제점이 많은 코드였다. 대략 이런식으로 발표를 하였고, 부끄럽지만 좋지 않은 결과를 내었기에 다시 처음부터 시작하기로 마음먹었다. 일단 피드백과 내가 찾은 문제점에 대한 해답을 적으려고 한다. 1. 데이터 전처리 과정에 있어 필요한 부분을 가공해야한다고 생각했다. - PCAN00.. 2022. 2. 19.

[2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피처를 갖고있다.)로만 진행했을 때의 AUC값 data3은 phenotype에 genotype을 더했을 때의 AUC값을 구하려고 진행했다. data1=pd.read_csv('./phenotype_1000.txt',engine="python",sep=" ") data2=pd.read_csv('./KCPS_r2_0.01_1000.csv') for i in range(2,15190): data2.columns.values[i]=i data2의 칼럼에 숫자를 부여하여 진행하였고.. 2022. 2. 19.

이전 1 2 3 4 5 다음

티스토리툴바