본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

분류 전체보기165

[2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피 honeyofdata.tistory.com 이전 포스팅으로 중간 발표를 하였지만... 역시나 문제점이 많은 코드였다. 대략 이런식으로 발표를 하였고, 부끄럽지만 좋지 않은 결과를 내었기에 다시 처음부터 시작하기로 마음먹었다. 일단 피드백과 내가 찾은 문제점에 대한 해답을 적으려고 한다. 1. 데이터 전처리 과정에 있어 필요한 부분을 가공해야한다고 생각했다. - PCAN00.. 2022. 2. 19.
[2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피처를 갖고있다.)로만 진행했을 때의 AUC값 data3은 phenotype에 genotype을 더했을 때의 AUC값을 구하려고 진행했다. data1=pd.read_csv('./phenotype_1000.txt',engine="python",sep=" ") data2=pd.read_csv('./KCPS_r2_0.01_1000.csv') for i in range(2,15190): data2.columns.values[i]=i data2의 칼럼에 숫자를 부여하여 진행하였고.. 2022. 2. 19.
[Dacon study] 2. 타이타닉 생존자 예측 이번에는 두번째로 데이콘과 캐글에서 유명한 타이타닉 생존자 예측을 하였다. https://dacon.io/competitions/open/235539/data [재난] 타이타닉 : 누가 살아남았을까? - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 타이타닉은 역사상 가장 유명한 난파선 중 하나로, 어떤 승객이 생존했을지 예측하는 대회이다. 데이터 설명 movies_train.csv / movies_test.csv PassengerID : 탑승객 고유 아이디 Survival : 탑승객 생존 유무 (0: 사망, 1: 생존) Pclass : 등실의 등급 Name : 이름 Sex : 성별 Age : 나이 Sibsp : 함께 탐승한 형제자매, 아내, 남편의 수 Parch : 함께.. 2022. 2. 19.
[2022 동계 인턴십] WinSCP 사용법! 교수님과 일주일에 한번씩 미팅하며 1000개의 데이터로만 사용했었다. 5주차가 되고나서 약 16000개에 해당하는 데이터를 사용하게 되었고 , 원격으로 연구실에 있는 컴퓨터와 연결할 수 있는 프로그램을 깔고 코드를 진행하게 되었다. WinSCP 다운로드 및 설치 https://winscp.net/eng/download.php WinSCP :: Official Site :: Download WinSCP 5.19 Download WinSCP 5.19 is a major application update. New features and enhancements include: A complete list of files that are part of a background transfer can be shown.. 2022. 2. 19.
[2022 동계 인턴십]암예측 4 이전에서 포스팅한 내용에서 중요도(feature_importance)를 0.5까지 잘라서 시행했다. #폐암 features=['LUNG','STOMA','COLON','LIVER','LUNG','PROST','THROI','BREAC','RECTM'] y_df =df['LUNG'] #X_df =df.drop(features, axis=1) X_df =df[['AGE_B','GOT_B','SBP_B','LDL_B','HDL_B','DBP_B','CHO_B','WT_B','FBS_B','GPT_B']] X_train, X_test, y_train, y_test = train_test_split(X_df, y_df, test_size=0.2, random_state=156) print(X_train.shape.. 2022. 2. 16.
[Dacon study] 1. 영화 관객수 예측 모델 개발 이때까지 파이썬과 분석 공부를 하였지만, 다시 데이터 분석과 머신러닝의 기초부터 차근차근 시작하자..는 생각으로 시작했다. 그리하여 데이콘에서 영화 관객수 예측 모델 개발부터 시작하였다. https://dacon.io/competitions/open/235536/data [문화] 영화 관객수 예측 모델 개발 - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 영화 관객수를 예측하는 대회이며 누구나 참여할 수 있는 연습용으로 적절한 대회이다. 데이터 설명 movies_train.csv / movies_test.csv title : 영화의 제목 distributor : 배급사 genre : 장르 release_time : 개봉일 time : 상영시간(분) screening_ra.. 2022. 2. 14.