본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

연구 활동/폐암 예측 프로젝트9

[2022 동계 인턴십]암예측3 FID 1000 non-null 환자 아이디 IID 1000 non-null 환자 아이디 AGE_B 1000 non-null 나이 SMOK_B 990 non-null 흡연 여부 1:비흡연, 2: 과거 흡연, 3: 흡연자 SMOKA_MOD_B 679 non-null 하루 평균 흡연량 (nan -> 0으로 전처리) ALCO_B 965 non-null 음주 여부 1: 예, 2: 아니오, nan : ? ALCO_AMOUNT_B 915 non-null 1회당 잔수로 환산 ...? EXER_B 927 non-null 1: 예, 2: 아니오 MDM_B 46 non-null . 데이터가 적음 MHTN_B 120 non-null . 데이터가 적음 MLPD_B 28 non-null . 데이터가 적음 PHTN_B 153 n.. 2022. 1. 12.
[동계인턴십] 암 예측 2 features=['STOMA','COLON','LIVER','LUNG','PROST','THROI','BREAC','RECTM'] y_df =df['LUNG'] X_df =df.drop(features, axis=1) from sklearn.model_selection import train_test_split X_train,X_test,y_train,y_test = train_test_split(X_df,y_df,test_size=0.2) from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.linear_model import LogisticRegress.. 2022. 1. 11.
[2022 동계인턴십] 암 예측 import pandas as pd data=pd.read_csv('C:/Users/dudtj/OneDrive - 숭실대학교 - Soongsil University/Desktop/CL/python/동계인턴십_Data_1000/phenotype_1000.txt',engine="python",sep=" ") print(data.info()) 위 그림과 같이 null값이 데이터의 절반 이상을 차지하는 변수들이 있다. 데이터 보존을 위해 non-null값이 900 이상인 데이터들만 가져와 다시 df로 저장하였다. (1000개의 데이터이므로 90%만 뽑았다.) 이렇게 할 수 있는 이유는 drop시킨 변수들은 암 예측에 중요하지 않다고 판단한 변수들이었기 때문이다. data.columns df=data.loc[:,.. 2022. 1. 10.