본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
연구 활동/AI 데이터연구단 과제

[논문 1-2] 소비자 웨어러블 장치에서 파생된 원시 가속도 및 광혈류 측정기 심박수 데이터를 사용한 수면 단계 예측

by 꿀먹은데이터 2022. 1. 6.

https://github.com/rootofdata/AILAB_Sleep-Scoring-Modeling.git

 

GitHub - rootofdata/AILAB_Sleep-Scoring-Modeling

Contribute to rootofdata/AILAB_Sleep-Scoring-Modeling development by creating an account on GitHub.

github.com

결과

인구 통계 및 요약 PSG 데이터

조사한 모든 알고리즘에서 동작,심박수 및 클럭 프록시와 같은 모든 기능이 분류기에 대한 입력으로 사용될 때 성능이 가장 좋았다.

조사된 모든 분류자에 대한 수면/각성 분류에 대한 성능 메트릭은 표 2–5에 요약되어 있다.

정확한 수면 시간의 비율(수면이 긍정적인 클래스로 취급될 때 수면 문헌에서 민감성이라고도 함), 정확한 각성 시간의 비율(특이성), 정확도, AUC 및 Cohen의 카파 값은 다음과 같다. 모델이 테스트될 때마다 결정되고(학습에 사용되지 않은 데이터의 예약된 부분에 대해), 시행에 걸쳐 평균을 냈다. 웨이크/NREM/REM 분류에 대한 유사한 성능 메트릭이 표 6에 나와 있다.

로지스틱 회귀의 수면 기상 예측을 위한 정확한 깨우기 비율,정확한 수면 비율,정확도, κ 및 AUC. HR, 심박수
k-최근접 이웃 분류기의 수면-기상 예측을 위한 깨우기 올바른 비율, 올바른 수면 비율, κ 및 AUC. HR, 심박수.
랜덤 포레스트 분류기의 수면 기상 예측을 위한 깨우기 올바른 비율, 올바른 수면 비율, 정확도, κ 및 AUC. HR, 심박수.
신경망 분류기의 수면-기상 예측을 위한 깨우기 올바른 비율, 올바른 수면 비율, 정확도, κ 및 AUC. HR, 심박수
모션, HR, 클록 프록시 또는 기능 조합을 사용하여 여러 분류기에서 깨우기/NREM/REM 분류를 위한 성능 메트릭

NREM 및 REM 수정은 임계값이 선택되었을 때 올바르게 채점된 NREM 및 REM 수면 에포크의 비율을 참조하여 가능한 한 근접하도록 하고 올바르게 채점된 기상 에포크의 비율을 0.6으로 유지한다.

최고의 정확도는 임계값 검색 중에 발견된 가장 높은 정확도를 나타내며 κ는 해당 정확도,HR, 심박수에 대한 Cohen's kappa 이다.

 

Sleep/wake classification

수면/각성 분류의 경우 심박수 표준 편차 자체는 분류기에 대해 일관되게 성능이 낮은 기능이었으며, 올바르게 채점된 수면은 분류기 전반에 걸쳐 90%로 고정되었다. 모션 전용 기능은 올바른 수면 Epoch 비율이 90%로 고정되었을 때 각성 Epoch의 48~55%를 올바르게 식별하였다. 

모션과 심장을 결합하면 이진 수면/각성 분류에 대해 모션 전용에 비해 수면/각성 분류가 거의 개선되지 않았다(수면 비율에 대한 95% 임계값에서 k-최근접 이웃에서 올바르게 채점된 기상 비율에 대략 3%만 추가).

epochs는 올바르게 점수를 매겼다. 클록 프록시를 포함하면 랜덤 포레스트와 신경망 분류기 모두에서 모션과 심장 박동수에 추가할 때 약 14% , 정확하게 채점된 수면 에포크의 비율이 90%로 고정된 경우까지 올바르게 채점된 기상 에포크의 비율이 향상되었다.

 AUC는 세 가지 기능을 모두 고려하고 신경망을 분류기로 사용할 때 가장 크다(AUC = 0.878). 그러나 분류기 유형 간의 차이는 기능 세트 선택 간의 차이보다 훨씬 덜 두드러진다. 예를 들어, 모든 기능에 대한 로지스틱 회귀 분류기의 AUC는 0.854로 모든 기능에 대해 훈련된 신경망 분류기의 AUC보다 약 3% 낮다. 분류기는 약 10%다.

 

Wake/NREM/REM classification

 wake/NREM/REM 분류기 성능 분석을 위해 두 가지 다른 접근 방식이 사용되었다. 기존 ROC 곡선과 나머지 ROC 곡선에 대한 것이다. 일반적으로 ROC 곡선은 이진 분류 문제에 대해 생성된다. 웨이크/NREM/REM 분류에서와 같이 둘 이상의 클래스가 있는 경우 y축에서 "진정성"의 정의가 모호하다. 따라서 각 클래스에 대한 1 대 나머지 ROC 곡선도 사용되었다. 즉, wake 대 not wake, REM 대 not REM, NREM 대 비 NREM이다. 이것은 분류 문제를 이진 문제로 줄인다.

추가 ROC 곡선은 그림 4에서 볼 수 있으며 "진정성"을 REM 및 NREM 성능이 (대략) 동일한 정확도로 대체하여 세 클래스 모두의 성능을 요약한다. 이러한 다중 클래스 스테이징 ROC 곡선은 분류기에서 반환된 확률에 두 개의 임계값을 적용하여 생성되었다. 첫 번째는 원하는 웨이크 위양성 비율을 달성하기 위해 적용된다. 즉, REM 또는 NREM 수면으로 잘못 점수가 매겨진 각성 에포크의 비율이다.

해당 임계값 아래에서 후류로 점수가 매겨지지 않은 에포크의 경우 REM 및 NREM 클래스 확률에 대해 두 번째 임계값이 선택되어 각각의 정확도(즉, 올바르게 분류된 각 클래스의 비율)를 가능한 한 동일하게 만들었다. 이러한 플롯은 기본 정보가 알려진 경우 모델 속성을 탐색하는 용도로만 사용해야 한다.

이 프로세스는 그림 4의 x축을 따라 전체 범위를 달성하기 위해 0에서 1 범위의 원하는 후류 위양성 비율의 확산에 대해 반복되었다. 기능 세트에서 REM 및 NREM 정확도를 본질적으로 동일하게 만드는 임계값을 선택할 수 있었다(그림 4의 점선 및 파선은 NREM 및 REM 정확도를 나타내고 실선은 평균을 나타냄).

NREM 및 REM 수면의 비율을 정확하게 대략적으로 동일하게 분류하는 임계값을 선택하면 일반적으로 가장 높은 정확도를 얻을 수 없다. 이것은 일반적인 밤에 REM 수면보다 NREM 수면에서 더 많은 시간을 보내기 때문에 발생한다. 따라서 올바르게 분류된 NREM 수면의 비율이 정확하게 분류된 REM 수면의 비율보다 정확도에 비례하여 더 중요하다. 표 6에는 임계값 검색 중에 발견된 가장 높은 정확도 값과 해당 κ 값이 포함되어 있다.

움직임 자체는 NREM과 REM의 가장 약한 예측 변수다. 동작에 대한 REM 및 NREM 정확도의 평균(그림 4의 파란색 실선)은 다른 기능 세트보다 낮으며, REM 수면의 비율이 올바르게 점수(점선)되거나 올바르게 점수가 매겨진 NREM 수면(점선)이 매우 낮다. 한 클래스에 대한 임계값을 줄여도 다른 클래스의 정확도가 그에 따라 빠르게 떨어지기 때문에 이 문제가 해결되지 않는다.

심박수는 수면/각성 분류에서 움직임 단독에 비해 성능을 최소한으로 향상시키는 반면 각성/NREM/REM 분류에서 훨씬 더 중요한 역할을 한다(그림 4). 심박수를 포함하면 동작 전용 기능 세트에서 발생하는 NREM 및 REM 정확도의 극적인 변화 없이 임계값을 변경할 수 있다. 심박수는 모션 위에 기능으로 포함될 때 분류기 전체에서 NREM/REM 정확도(거의 동일하게 만드는 임계값을 선택하여 발견)를 15%–25% 향상했다.

 

Algorithm testing in MESA dataset

각 분류기의 모델은 Apple Watch 데이터 세트의 모든 주제를 사용하여 훈련되었고 파일로 저장되었으며 공동 녹음된 액티그래피 및 PSG로 MESA 하위 집단의 보이지 않는 데이터를 테스트하는 데 사용되었다. 요약 수면 변수는 표 7에 설정된 MESA 테스트의 188명의 피험자(90명의 여성)에서 요약된다. 참가자의 평균 연령은 68.78세(σ = 8.81)이다.

모션, HR, 클록 프록시 또는 기능 조합을 사용하는 신경망 분류기의 수면-기상 예측을 위한 깨우기 올바른 비율, 올바른 수면 비율, 정확도, κ 및 AUC. HR, 심박수.
모든 테스트 대상의 수면 밤에 대해 확률이 0.3(θW=0.3)을 초과하면 에포크가 기상으로 계산되었다.
모든 과목에 대한 교육 및 교육에서 제외된 한 과목에 대한 테스트의 성능 히스토그램

표시된 두 가지 성능 측정은 정확도와 특이성이다. 여기에서 특이성은 웨이크로 올바르게 점수를 매긴 웨이크 에포크의 비율을 나타낸다. 각 행은 고정된 "진정한 양성률"(TPR)에 해당하며, 수면으로 올바르게 채점된 수면 에포크의 비율을 나타낸다. 각 행에 대해 수면과 기상을 분리하는 임계값은 고정된 참 양성 비율과 일치하도록 선택되었다. 필요한 참 양성률이 증가함에 따라 수면으로 기록되는 기상 에포크의 가능성이 증가한다. 따라서 TPR이 증가함에 따라 특이성 히스토그램에서 더 낮은 값으로 치우쳐 있다.

 

Apple Watch-PSG 데이터 세트에서 훈련된 신경망 모델의 MESA 데이터 세트(n = 188) 검증. (왼쪽) MESA 데이터 세트의 절전/깨우기 차별화 성능 (오른쪽)

MESA 데이터 세트의 깨우기/NREM/REM 분류기 성능. 점선은 모션 전용 기능 세트에 대한 REM 정확도를 나타낸다. 점선은 모션 전용 기능 세트에 대한 NREM 정확도를 나타낸다. 모두에 대해 실선은 임계값 선택을 통해 최대한 동일하도록 선택된 NREM 및 REM 정확도의 평균을 나타낸다.

Apple Watch-PSG 데이터 세트에서 훈련된 모델을 사용하여 MESA 데이터 세트(n = 188)에서 수면 지표 성능을 정량화

신경망 분류기로 분류된 TST(분), SOL(분), WASO(분), SE(분수), 단계 REM 수면(분) 및 NREM 수면(분)에 대한 Bland-Altman 플롯. 분류기 값 대 PSG 값의 차이는 y축(실제 - 예측)에 표시되고 해당하는 실측 PSG 값은 x축에 표시된다.

수면 지표는 모든 대상에 대해 각성(θW=0.3) 및 REM(θREM=0.35)에 대해 동일한 고정 임계값을 사용하여 계산하였다.

Conclusion

Apple Watch 데이터와 PSG에서 개발된 31명의 건강한 개인 모집단에서 훨씬 더 크고 다양한 모집단에서 성능을 테스트할 수 있도록 했다. 실제로 MESA 코호트(전통적인 액티그라피 및 맥박 산소 측정기)에서 동작 및 심박수 데이터 수집의 차이에도 불구하고 우리 알고리즘은 PSG와 비교하여 우수한 수면/기상 예측을 보여주었다. 특히 흥미로운 발견 중 하나는 알고리즘이 MESA 데이터 세트에서 검증되었을 때 최상의 카파 값을 얻었다는 것이다.

 

보이지 않는 MESA 테스트 세트의 성능은 실제로 Apple Watch 데이터 세트 내에서 검증하는 동안 최고의 카파를 초과했다. 이에 대한 한 가지 이유는 데이터 수집 방법 간의 근본적인 차이일 수 있다. MEMS 가속도계 대 액티그래피 및 손목 착용 PPG 대 손가락 착용, 의료 등급 PPG(펄스 산소 측정기). 또한 두 대상 집단의 수면 각성 특성의 차이가 분류기의 예측 능력을 변화시킬 수도 있다. Apple Watch 데이터 세트에서 WASO는 때때로 상당한 움직임을 동반했다. MESA 코호트에서 우리는 기록 개시 후 기상이 종종 상당한 움직임(예: 피험자가 일어서서 움직이고 있음)과 연관되어 기상을 분류하기 쉽게 만든다는 것을 정성적으로 관찰했다. 

 

서로 다른 센서를 통해 얻은 원시 가속도와 활동 수에 걸친 알고리즘의 가용성은 연구 및 임상 실습 모두를 위한 보행 수면 추적을 표준화할 것이다. 이 방법론과 그 사용을 지원하는 데 필요한 데이터 공유를 통해 기존 리소스를 지속적으로 활용하는 동시에 혁신을 촉진할 수 있다. 

 

이 작업에서 로지스틱 회귀, k-최근접 이웃, 랜덤 포레스트 및 신경망의 네 가지 분류기를 조사했다. 분류기 방법은 기상과 수면을 구별하고 수면 단계를 구별하는 능력이 다르지만 이러한 차이는 특별히 두드러지지 않았다. 그러나 기능 포함은 성능에 상당한 영향을 미쳤다.

예를 들어, 모든 분류기의 AUC는 심박수만 사용할 때보다 심박수와 동작을 함께 취하면 크게 증가합니다. 또한 세로 데이터를 사용하여 알려진 수면의 일주기 제어를 활용하는 기능을 포함하면 성능이 측정 가능하게 향상됨을 볼 수 있다.