본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

연구 활동/폐암 예측 프로젝트9

[2022 동계 인턴십]암예측 최종 https://honeyofdata.tistory.com/30 [2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 A.. honeyofdata.tistory.com 위 포스팅에서 받은 피드백을 바탕으로 진행하였고 최종적으로 마무리할 수 있었다. 연구주제 및 내용 부스팅 기법을 사용하여 암 질병률의 연관성을 분석 및 예측한다. 각종 질병 중 ‘LUNG’(폐암)을 선택하여 연구를 진행했다. 데이터 전처리 위 feature들은 phenotype.. 2022. 2. 20.
Optuna: A hyperparameter optimization framework optuna는 2022 동계 인턴십을 진행하는 와중, GridsearchCV 등을 탐색하다 발견한 automl의 소프트웨어 프레임워크의 일종이다. 최근 뜨기 시작한 automl의 발전하는 단계 중 일환으로 생각하고 있고, 이번에 사용해보기로 하면서 optuna에 대해 공부를 해봤다. https://optuna.readthedocs.io/en/stable/ Optuna: A hyperparameter optimization framework — Optuna 2.10.0 documentation Optuna: A hyperparameter optimization framework Optuna is an automatic hyperparameter optimization software framework, p.. 2022. 2. 20.
[2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피 honeyofdata.tistory.com 이전 포스팅으로 중간 발표를 하였지만... 역시나 문제점이 많은 코드였다. 대략 이런식으로 발표를 하였고, 부끄럽지만 좋지 않은 결과를 내었기에 다시 처음부터 시작하기로 마음먹었다. 일단 피드백과 내가 찾은 문제점에 대한 해답을 적으려고 한다. 1. 데이터 전처리 과정에 있어 필요한 부분을 가공해야한다고 생각했다. - PCAN00.. 2022. 2. 19.
[2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피처를 갖고있다.)로만 진행했을 때의 AUC값 data3은 phenotype에 genotype을 더했을 때의 AUC값을 구하려고 진행했다. data1=pd.read_csv('./phenotype_1000.txt',engine="python",sep=" ") data2=pd.read_csv('./KCPS_r2_0.01_1000.csv') for i in range(2,15190): data2.columns.values[i]=i data2의 칼럼에 숫자를 부여하여 진행하였고.. 2022. 2. 19.
[2022 동계 인턴십] WinSCP 사용법! 교수님과 일주일에 한번씩 미팅하며 1000개의 데이터로만 사용했었다. 5주차가 되고나서 약 16000개에 해당하는 데이터를 사용하게 되었고 , 원격으로 연구실에 있는 컴퓨터와 연결할 수 있는 프로그램을 깔고 코드를 진행하게 되었다. WinSCP 다운로드 및 설치 https://winscp.net/eng/download.php WinSCP :: Official Site :: Download WinSCP 5.19 Download WinSCP 5.19 is a major application update. New features and enhancements include: A complete list of files that are part of a background transfer can be shown.. 2022. 2. 19.
[2022 동계 인턴십]암예측 4 이전에서 포스팅한 내용에서 중요도(feature_importance)를 0.5까지 잘라서 시행했다. #폐암 features=['LUNG','STOMA','COLON','LIVER','LUNG','PROST','THROI','BREAC','RECTM'] y_df =df['LUNG'] #X_df =df.drop(features, axis=1) X_df =df[['AGE_B','GOT_B','SBP_B','LDL_B','HDL_B','DBP_B','CHO_B','WT_B','FBS_B','GPT_B']] X_train, X_test, y_train, y_test = train_test_split(X_df, y_df, test_size=0.2, random_state=156) print(X_train.shape.. 2022. 2. 16.