본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
연구 활동/폐암 예측 프로젝트

[2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백

by 꿀먹은데이터 2022. 2. 19.

https://honeyofdata.tistory.com/29

 

[2022 동계 인턴십]암예측 5

이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피

honeyofdata.tistory.com

이전 포스팅으로 중간 발표를 하였지만...

 

역시나 문제점이 많은 코드였다.

 

대략 이런식으로 발표를 하였고, 부끄럽지만 좋지 않은 결과를 내었기에 다시 처음부터 시작하기로 마음먹었다.

 

일단 피드백과 내가 찾은 문제점에 대한 해답을 적으려고 한다.

1. 데이터 전처리 과정에 있어 필요한 부분을 가공해야한다고 생각했다.

- PCAN00,FCAN00 (가족력 , 과거력)에 대해 LUNG(폐)와 어떠한 관련성이 있는가에 대한 연구가 필요하다. 

- 체중과 키를 합쳐 BMI(비만지수)를 만든다면 건강을 위협하는 척도를 정할 수 있지 않을까 생각했다.

이를 통해 EDA를 높이는데 주력해야한다.

- LUNG에 있어서 많은 결측값을 가진 phenotype에서의 피처인 FEV1과 FVC가 폐와 관련된 변수이기 때문에 이 변수를 어떻게 처리하는지에 대한 고민이 필요하다.

2. sensitivity를 높이는 것이 중요하다.

 

3. cross_validation , GridSearchCV를 통해 데이터와 모델의 최적값(lambda나 option 등...)을 찾아야겠다고 생각했다.

 

4. 라쏘의 방법 이외에 엘라스틱넷의 경우를 생각해보고 glmnet vignette , plink clumping 등 변수를 줄이는 방법 대한 연구가 필요하다.

 

https://glmnet-python.readthedocs.io/en/latest/glmnet_vignette.html

 

Glmnet Vignette (for python) — glmnet vignette documentation

Introduction Glmnet is a package that fits a generalized linear model via penalized maximum likelihood. The regularization path is computed for the lasso or elasticnet penalty at a grid of values for the regularization parameter lambda. The algorithm is ex

glmnet-python.readthedocs.io

위 글은 glmnet에 대한 이론에 대한 내용으로 , 파이썬을 이용하여 glmnet을 어떻게 사용하는지에 대한 설명이 잘 나와있어 공부를 잘 할 수 있었다.