[삼성 SDS Brightics]# 03-1. 팀프로젝트(1) 의료비(보험비) 예측

안녕하세요!
오늘은 브라이틱스 서포터즈 3기 5팀의
팀 프로젝트 첫번째 진행에 대한 포스팅을 가져왔습니다!!
이번에는 개인 분석이 아닌 팀 분석이기에 더 설레는 마음이 들더라구요!
뛰어나고 훌륭한 역량을 가진 팀원들과 함께하니 든든합니다 :)
그래서 저희는 팀 프로젝트를 진행하기 위해 대면으로 만나 회의를 진행하였습니다!
(대면으로 팀원들 만난 후기 궁금하시죠? 이후에 포스팅으로 찾아뵙겠습니다! 😀)
그렇다면 이제 시작해볼까요~??
이번 포스팅으로는
팀 소개, 데이터 선정, 데이터 설명 및 간단한 시각화까지의 내용을 가져왔습니다.
먼저 팀 소개입니다.
우리가 누군지 알아?
우리는 바로바로..!!
HI:FIVE 🖐✋✋
저희는 팀명을 HI:FIVE로 정했는데요!
높이 올라가자는 의미로 HI! , 5명의 팀원으로 구성되어 FIVE!
그리고 하던 일이 잘 풀리라는 의미로 하이파이브!! 아주 만족스럽습니다 😀
열정이 가득한 우리 팀.. 하이파이브하자 ✋
1. 데이터 선정
Medical Cost Personal Datasets
저희 HI:FIVE (5팀)은 데이터 선정에 있어 많은 고민을 했습니다..!!
어떻게 하면 좋은 주제로 선정할지,
브라이틱스를 잘 홍보할 수 있을지 고민 또 고민!!

모두 열심히 데이터셋을 찾아보며 나름의 이유를 갖고 좋은 데이터를 가져왔는데요,
그에 따라 고르기가 더 힘들었다는...
이렇게 우리의 심사숙고 끝에 결정된 데이터는...
두구두구두구두구~~~~~~
짜잔~~
바로바로 개인 특성에 따른 개인이 납부할 의료비 예측입니다!
이는 Kaggle에서 제공하는 데이터셋으로 'Machine Learning with R'에서 사용된 데이터라고 합니다!
데이터 선정이유는 다음과 같습니다. (목적)
- 미국의 의료비는 어마어마하기에, 본인의 의료비를 직접 예측하여 과납을 막고 그에 상응하는 보험금을 납부
- 의료 보험료 변화의 추세와 개개인의 의료비의 특성을 파악하여 맞춤형 보험 상품을 기획
- 한국 또한 의료비 지출 증가세가 빠르기에 높은 의료비를 지불하는 미국에 대비를 하기 위함.
2. 데이터셋 설명
Medical Cost Personal Datasets

본 팀 분석 프로젝트에서는
나이, 성별, 비만도, 가구원, 흡연 여부, 거주지를 고려하여
의료 비용(Y지표)를 예측하려고 합니다!
아래 그림은 간단하게 살펴본 데이터셋입니다 😀

데이터에 대한 Overview
4.(간단한 / 복합적) EDA
Medical Cost Personal Datasets
브라이틱스의 특성상 클릭 두 세번만 하면
간단한 EDA를 진행할 수 있다는 사실!
(역시 브라이틱스 💙)
브라이틱스 덕분에 데이터를
시각화하는데 있어 별로 안걸렸답니다!!
(시각화에는 브라이틱스를 꼭 사용하세요 ❗ )
일단. 각 컬럼에 대한 시각화를 먼저 해보겠습니다.
1. 간단한 EDA
1.1. 상관 분석 (Correlation)

상관분석의 경우, pearson과 spearman으로 진행하였습니다.
숫자로 나오는 age,bmi,children,charges 경우만
상관분석을 진행하였습니다.
(문자열로 이루어진 데이터의 경우, 범주형으로 구성하여 다시 상관분석을 해봐야겠죠?)
1.2. 간단한 countplot ( 각 범주별로 count하여 시각화)
1.2.1. Age countplot
나이에 따라 의료비가 다를 가능성이 높아보이니,
나이에 대한 시각화가 필요하겠죠~?

age를 보면 19세를 제외하고는 고루고루 분포되어있음을 알 수 있죠~??

age를 10살을 기준으로 묶어서 살펴보겠습니다.
이렇게보니 10대가 그닥 눈에 띄지 않는군요!
고루고루 분포되었다는 것을 다시 확인했습니다~!
1.2.2. Sex countplot
성별에 따라 어떻게 다른지 살펴봤습니다.

여성과 남성의 비율이 거의 비슷한 것을 볼 수 있습니다!
1.2.3. Children countplot
자녀 수 / 부양 가족 수인데요,
이 컬럼이 의료비에 어떠한 영향을 끼칠지는 한번 지켜봐야할 것 같아요 :)

1.2.4. Smoker countplot
흡연자에 따라 의료비가 높을 것으로 예상됩니다.
이를 확인해보기 전 흡연여부에 대한 countplot을 살펴보겠습니다.

이는 약 8:2의 비율입니다. (no : 1064 : yes : 274)
1.2.5. Region countplot
거주지의 경우,
northeast,northwest, southeast, southwest로
총 4구역으로 나눠져 진행하였습니다.

물론 southeast가 약간 많지만 약 40명의 차이이기에,
크게 영향을 줄만큼 차이가 나지 않음을 알 수 있습니다.
2. 복합적 EDA
2.1. 복합적 countplot (두 개의 컬럼을 통한 countplot)
2.1.1. region- age group countplot
다음은 각 지역에 따라 나이의 분포도를 살펴보았습니다.

각 지역마다 나이대 분포가 고루고루 퍼져있는 것을 볼 수 있어,
편향적이지 않는 데이터임을 알 수 있겠죠~?
2.2. 복합적 boxplot ( 의료비에 따른 컬럼 비교 )
다음으로는 y좌표인 의료비(charge)와 다른 칼럼들간의 관계를 살펴보겠습니다!
2.2.1.나이- 의료비(age - charges)
나이에 따라 의료비의 변화를 boxplot을 통해 살펴보았습니다.

( boxplot이 60대로 갈수록 올라가는 것을 볼 수 있네요!!)
2.2.2. 흡연여부- 의료비(smoker - charges)
비록 비흡연자의 경우에도 흡연자보다 높은 경우가 발생하지만,
흡연자의 경우 비흡연자보다 의료비가 많이 든다는 사실을 알 수 있습니다.

(흡연자분들은 금연을 해야겠다는 생각이 절로 들 것 같아요)
2.2.3. 성별 - 의료비(sex - charges)
성별에 따른 의료비 비교도 해봤는데요, 남성이 여성보다 약간 높은 수치를 기록할 뿐,
많은 차이를 보이지 않는 것을 알 수 있습니다.

성별에 따른 의료비 비교도 해봤는데요, 남성이 여성보다 약간 높은 수치를 기록할 뿐,
많은 차이를 보이지 않는 것을 알 수 있습니다.
4. 팀 프로젝트
Medical Cost Personal Datasets
저희의 팀 프로젝트의 경우,
데이터 수집 | 데이터 전처리 | 모델링 | 모델 평가 및 선정으로
총 4파트로 나누어 진행하였습니다 :)
저는 데이터 전처리와 모델링 구축, 모델의 파라미터 최적화를 맡게 되었습니다.
저희 분석 팀 프로젝트 이후에
팀 영상도 준비되어있으니 기대해주세요~!!
(진짜로 시나리오 보니까 엄청 재밌어요..!!
기대하셔도 좋습니다 하핳)
5. 마무리
Medical Cost Personal Datasets
이렇게 팀 소개부터 데이터 선정,
데이터 간단한 EDA까지 진행해보았는데요,
앞으로 3주간 진행되는 팀 분석 프로젝트에서는
이 의료비 데이터를 기반으로 진행하고자 합니다.
전처리부터 모델을 선정하는 과정까지 쭉 지켜봐주실거죠?

저 혼자만이 진행한 사항이 아닌
팀원들끼리 역할을 나눠 진행하였습니다.
같이 진행하니, 수월하게 작업할 수 있었습니다!
(역시.. 팀프로젝트는 좋아!)
지금도 묵묵히 자기 역할을 수행하고 있는
팀원들에게 고마울 따름이네요 ㅎㅎ
저도 분발해야겠습니다!!

앞으로 기대에 부응하도록 열심히!
브라이틱스로 분석하여
포스팅하도록 하겠습니다.
본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.