본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

전체 글165

[2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피 honeyofdata.tistory.com 이전 포스팅으로 중간 발표를 하였지만... 역시나 문제점이 많은 코드였다. 대략 이런식으로 발표를 하였고, 부끄럽지만 좋지 않은 결과를 내었기에 다시 처음부터 시작하기로 마음먹었다. 일단 피드백과 내가 찾은 문제점에 대한 해답을 적으려고 한다. 1. 데이터 전처리 과정에 있어 필요한 부분을 가공해야한다고 생각했다. - PCAN00.. 2022. 2. 19.
[2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 AUC값 data2는 KCPS의 genotype으로 유전적인 피처(16955개의 피처를 갖고있다.)로만 진행했을 때의 AUC값 data3은 phenotype에 genotype을 더했을 때의 AUC값을 구하려고 진행했다. data1=pd.read_csv('./phenotype_1000.txt',engine="python",sep=" ") data2=pd.read_csv('./KCPS_r2_0.01_1000.csv') for i in range(2,15190): data2.columns.values[i]=i data2의 칼럼에 숫자를 부여하여 진행하였고.. 2022. 2. 19.
[Dacon study] 2. 타이타닉 생존자 예측 이번에는 두번째로 데이콘과 캐글에서 유명한 타이타닉 생존자 예측을 하였다. https://dacon.io/competitions/open/235539/data [재난] 타이타닉 : 누가 살아남았을까? - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 타이타닉은 역사상 가장 유명한 난파선 중 하나로, 어떤 승객이 생존했을지 예측하는 대회이다. 데이터 설명 movies_train.csv / movies_test.csv PassengerID : 탑승객 고유 아이디 Survival : 탑승객 생존 유무 (0: 사망, 1: 생존) Pclass : 등실의 등급 Name : 이름 Sex : 성별 Age : 나이 Sibsp : 함께 탐승한 형제자매, 아내, 남편의 수 Parch : 함께.. 2022. 2. 19.
[2022 동계 인턴십] WinSCP 사용법! 교수님과 일주일에 한번씩 미팅하며 1000개의 데이터로만 사용했었다. 5주차가 되고나서 약 16000개에 해당하는 데이터를 사용하게 되었고 , 원격으로 연구실에 있는 컴퓨터와 연결할 수 있는 프로그램을 깔고 코드를 진행하게 되었다. WinSCP 다운로드 및 설치 https://winscp.net/eng/download.php WinSCP :: Official Site :: Download WinSCP 5.19 Download WinSCP 5.19 is a major application update. New features and enhancements include: A complete list of files that are part of a background transfer can be shown.. 2022. 2. 19.
[2022 동계 인턴십]암예측 4 이전에서 포스팅한 내용에서 중요도(feature_importance)를 0.5까지 잘라서 시행했다. #폐암 features=['LUNG','STOMA','COLON','LIVER','LUNG','PROST','THROI','BREAC','RECTM'] y_df =df['LUNG'] #X_df =df.drop(features, axis=1) X_df =df[['AGE_B','GOT_B','SBP_B','LDL_B','HDL_B','DBP_B','CHO_B','WT_B','FBS_B','GPT_B']] X_train, X_test, y_train, y_test = train_test_split(X_df, y_df, test_size=0.2, random_state=156) print(X_train.shape.. 2022. 2. 16.
[Dacon study] 1. 영화 관객수 예측 모델 개발 이때까지 파이썬과 분석 공부를 하였지만, 다시 데이터 분석과 머신러닝의 기초부터 차근차근 시작하자..는 생각으로 시작했다. 그리하여 데이콘에서 영화 관객수 예측 모델 개발부터 시작하였다. https://dacon.io/competitions/open/235536/data [문화] 영화 관객수 예측 모델 개발 - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 영화 관객수를 예측하는 대회이며 누구나 참여할 수 있는 연습용으로 적절한 대회이다. 데이터 설명 movies_train.csv / movies_test.csv title : 영화의 제목 distributor : 배급사 genre : 장르 release_time : 개봉일 time : 상영시간(분) screening_ra.. 2022. 2. 14.
[AI 데이터 연구단] 재난 대응 시나리오 및 주요 행동 요령 https://github.com/rootofdata/AILAB_Sleep-Scoring-Modeling.git GitHub - rootofdata/AILAB_Sleep-Scoring-Modeling Contribute to rootofdata/AILAB_Sleep-Scoring-Modeling development by creating an account on GitHub. github.com 재난대응 전문가 시스템 (한국 환경산업기술원) 우리나라 재난에 의한 피해가 지속적 발생 특히 다수의 상하수도시설에서는 내진설계가 적용되지 않음. 따라서 비상급수관리 내진보강 등의 시설 재난에 대한 피해대응이 미흡함. 재난안전연구원에 따르면 재난으로 인한 공공시설의 피해액이 전체의 69.5%이므로 공공시설에 대한 .. 2022. 1. 28.
삼성헬스 (갤럭시워치) 데이터 분석 #1 https://github.com/rootofdata/AILAB_Sleep-Scoring-Modeling.git GitHub - rootofdata/AILAB_Sleep-Scoring-Modeling Contribute to rootofdata/AILAB_Sleep-Scoring-Modeling development by creating an account on GitHub. github.com 수면 체크를 하는 도중 갤럭시 워치와 연동된 데이터의 값들이 궁금해졌고 갤럭시 워치와 연동된 갤럭시 폰에 있는 워치 데이터들을 가져왔다. 경로 : 갤럭시 삼성 헬스 설정>개인 데이터 다운로드>엑셀 데이터 이 곳에 있는 데이터에 변수명에 대한 설명을 알고 싶어 갤럭시 워치& 삼성 헬스 관련 문의도 넣었지만 무응답이.. 2022. 1. 25.
[2022 동계 인턴십]암예측3 FID 1000 non-null 환자 아이디 IID 1000 non-null 환자 아이디 AGE_B 1000 non-null 나이 SMOK_B 990 non-null 흡연 여부 1:비흡연, 2: 과거 흡연, 3: 흡연자 SMOKA_MOD_B 679 non-null 하루 평균 흡연량 (nan -> 0으로 전처리) ALCO_B 965 non-null 음주 여부 1: 예, 2: 아니오, nan : ? ALCO_AMOUNT_B 915 non-null 1회당 잔수로 환산 ...? EXER_B 927 non-null 1: 예, 2: 아니오 MDM_B 46 non-null . 데이터가 적음 MHTN_B 120 non-null . 데이터가 적음 MLPD_B 28 non-null . 데이터가 적음 PHTN_B 153 n.. 2022. 1. 12.