본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

XGBoost4

[삼성 SDS Brightics]# 03-4. 팀프로젝트(4) 의료비 예측 마무으리!! 안녕하세요! 브라이틱스 서포터즈 3기 서영석입니다! 저번주로 하여 팀 분석 프로젝트가 마무리가 되었는데요. 이번주에는 간단한 요약과 소감으로 찐!! 마무리를 하려고 합니다 😀 이전 포스팅을 못보신 분들을 아래 링크로 한번 읽고 오시면.. 복받으실거에요😁 1️⃣ 개인이 납부할 의료비 예측 (1) https://blog.naver.com/dudtjr4915/222849374071 2️⃣ 개인이 납부할 의료비 예측 (2) https://blog.naver.com/dudtjr4915/222855763188 ​3️⃣개인이 납부할 의료비 예측 (3) https://blog.naver.com/dudtjr4915/222862117611 의료비 예측 프로젝트 요약 https://www.kaggle.com/datasets.. 2022. 9. 6.
XGBoost vs Randomforest 데이터 사이언티스트(DS)로 성장하기 위해 모델의 분류와 모델에 관해 심도 깊은 이해가 필요하다. 그래서 이번에는 XGBoost와 Randomforest의 차이에 대해 알아보려고 한다. 또한 앞으로 모델을 세부적으로 공부하면서 간간히 모델에 대해 공부하고 포스팅을 하려고 한다. 왜 이 둘의 차이를 먼저 알아보는지 ? 이번 삼성 SDS Brightics 서포터즈 3기 면접에서 XGBoost와 Randomforest의 차이에 대해 여쭤봤지만.. 제대로 답하지를 못했다.. 동계 인턴십에서 '암예측'에서 사용했던 주요 모델 중 하나였지만, 모델을 제대로 숙지하지 않고 썼던 나를 반성하며 공부하려고 한다. XGBoost란? XGBoost는 현업에서 자주 사용하는 ML 모델이다. XGBoost는 Gradient B.. 2022. 6. 29.
[2022 동계 인턴십]암예측 최종 https://honeyofdata.tistory.com/30 [2022 동계 인턴십]암예측 6 - 발표 및 문제점에 대한 피드백 https://honeyofdata.tistory.com/29 [2022 동계 인턴십]암예측 5 이번에는 데이터를 총 3분류로 나누어서 진행했다. data1은 암 관련 phenotype ( 예를 들어 성별, 음주량, 흡연량, 나이 등등)만 진행했을 때의 A.. honeyofdata.tistory.com 위 포스팅에서 받은 피드백을 바탕으로 진행하였고 최종적으로 마무리할 수 있었다. 연구주제 및 내용 부스팅 기법을 사용하여 암 질병률의 연관성을 분석 및 예측한다. 각종 질병 중 ‘LUNG’(폐암)을 선택하여 연구를 진행했다. 데이터 전처리 위 feature들은 phenotype.. 2022. 2. 20.
[Dacon study] 2. 타이타닉 생존자 예측 이번에는 두번째로 데이콘과 캐글에서 유명한 타이타닉 생존자 예측을 하였다. https://dacon.io/competitions/open/235539/data [재난] 타이타닉 : 누가 살아남았을까? - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 타이타닉은 역사상 가장 유명한 난파선 중 하나로, 어떤 승객이 생존했을지 예측하는 대회이다. 데이터 설명 movies_train.csv / movies_test.csv PassengerID : 탑승객 고유 아이디 Survival : 탑승객 생존 유무 (0: 사망, 1: 생존) Pclass : 등실의 등급 Name : 이름 Sex : 성별 Age : 나이 Sibsp : 함께 탐승한 형제자매, 아내, 남편의 수 Parch : 함께.. 2022. 2. 19.