본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
카테고리 없음

[통계] 왜 머신러닝은 확률로 설명될까

by 꿀먹은데이터 2026. 2. 8.

머신러닝을 공부하다 보면 이상하게 많은 개념이 확률과 통계로 설명된다.
Loss도 확률로 해석되고, 모델 평가도 확률 분포로 이야기하고, 심지어 딥러닝의 출력도 결국 확률값이다.

처음에는 단순히 데이터를 많이 다루기 때문이라고 생각했지만, 조금 더 공부하면서 생각이 달라졌다.
머신러닝은 결국 정답을 정확히 아는 문제가 아니라, 가장 그럴듯한 답을 추정하는 문제에 가깝다는 것을 느끼게 됐다. 그리고 통계는 바로 그 “추정”을 다루는 학문이었다.

확률은 불확실성을 다루는 언어였다

현실의 데이터는 항상 노이즈가 있고, 완벽하게 예측할 수 있는 경우는 거의 없다. 같은 조건에서도 결과가 달라지고, 같은 고객도 다른 행동을 한다.

이때 모델은 하나의 값을 정확히 맞추는 것이 아니라 “이 결과가 나올 가능성이 얼마나 높은가”를 계산하게 된다.

그래서 분류 모델의 출력이 0 또는 1이 아니라 0.87, 0.42 같은 확률값으로 나타나는 것이 자연스럽게 느껴졌다.

모델은 가능성을 말하고 있었던 것이다.

평균과 분산은 데이터의 성격을 설명하는 도구였다

데이터를 처음 보면 평균을 구하고, 분산을 본다. 처음에는 단순한 요약 통계처럼 보였지만, 점점 다르게 느껴졌다.

평균은 데이터의 중심을 말해주고 분산은 데이터가 얼마나 흔들리는지를 말해준다.

같은 평균이라도 분산이 크면 예측은 어려워지고 분산이 작으면 훨씬 안정적으로 예측할 수 있다.

결국 모델이 어려워하는 데이터는 평균이 아니라 분산이 큰 데이터라는 것도 자연스럽게 이해됐다.

최대우도추정(MLE)은 가장 그럴듯한 설명을 찾는 과정이었다

MLE를 처음 배울 때는 공식이 먼저 보였다. 로그를 취하고, 미분하고, 최댓값을 찾는 과정이 복잡하게 느껴졌다.

하지만 관점을 바꾸니 훨씬 단순해졌다. MLE는 “이 데이터가 나왔다고 가정했을 때, 어떤 모델이 가장 자연스러운가?” 를 묻는 과정이었다. 즉 데이터를 가장 잘 설명하는 모델을 찾는 과정이었다.

이렇게 생각하니 Loss 함수가 왜 존재하는지도 자연스럽게 이해됐다. Loss는 결국 “설명이 얼마나 어색한가”를 수치로 나타낸 것이었다.

베이즈 관점은 모델을 더 현실적으로 만들었다

MLE가 데이터만 보는 방법이라면 베이즈는 기존의 정보까지 함께 고려하는 방법이었다.

처음에는 Prior라는 개념이 추상적으로 느껴졌지만 생각해보니 사람은 항상 Prior를 가지고 판단하고 있었다.

우리는 새로운 데이터를 볼 때도 완전히 처음부터 판단하지 않는다.
그래서 최근의 많은 모델들이 Regularization이나 Prior를 넣는 방식으로 베이즈적인 해석이 가능하다는 점도 흥미롭게 느껴졌다.

결국 통계는 모델이 세상을 이해하는 방식이었다

다시 정리해보니 흐름이 보였다. 선형대수가 데이터를 표현하는 언어라면 통계는 데이터를 해석하는 언어였다.

벡터 공간이 데이터를 놓는 공간이라면 확률 분포는 그 공간에서 데이터가 어떻게 퍼져 있는지를 설명해준다.그리고 머신러닝은 그 분포를 가장 잘 설명하는 모델을 찾는 과정이었다. 딥러닝이 아무리 복잡해 보여도 결국 아래에는 항상 같은 질문이 있었다.

“이 데이터는 어떤 구조를 가지고 있고, 그 구조를 가장 자연스럽게 설명하는 모델은 무엇인가?”

그리고 그 질문에 답하는 언어가 바로 통계라는 생각이 들었다.

반응형