본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.
카테고리 없음

[논문 리뷰] Who Said Neural Networks Aren’t Linear?

by 꿀먹은데이터 2025. 12. 19.

신경망을 ‘비선형 블랙박스’로만 봐도 될까?

Neural networks are nonlinear function approximators.
이 문장은 너무 자주 반복되며 거의 진리처럼 받아들여진다.

〈Who Said Neural Networks Aren’t Linear?〉 이 논문은 신경망의 출력이 아니라, 신경망이 학습 과정에서 만들어내는 함수 공간의 구조를 다시 바라보며 “신경망은 생각보다 훨씬 선형적(linear)일 수 있다”는 도발적인 주장을 던진다.

 

특히 Linear 인지 UnLinear인지에 따라 달라질 수 있는 수학적 사고가 있기에 재밌어보여 리뷰하고자 한다.


1. 우리는 ‘출력의 비선형성’만 보고 있다.

일반적으로 신경망의 비선형성은 다음 근거로 설명된다.

  • ReLU, Sigmoid 같은 비선형 활성함수
  • 깊은 레이어를 거치며 생기는 복잡한 표현
  • Universal Approximation Theorem

하지만 이 논문은 질문을 바꾼다.

“출력 함수가 비선형이라는 사실이 학습된 모델의 거동까지 비선형임을 의미하는가?"


2. Neural Network는 ‘국소적으로는.. 선형 모델’이다

논문의 핵심 통찰은 다음 한 문장으로 요약된다.

신경망은 파라미터 공간에서 매우 넓은 영역에 걸쳐 ‘선형 모델처럼 행동한다’


3. Neural Tangent Kernel (NTK) 관점

이 논문은 NTK(Neural Tangent Kernel) 프레임워크를 적극 활용한다.

핵심 아이디어

  • 무한히 넓은(width → ∞) 신경망에서는 학습 중 파라미터가 크게 변하지 않음
  • 결과적으로 모델은 초기화 지점 근처에서 1차 테일러 근사로 충분

학습은 사실상 고정된 feature space와 선형 회귀 문제로 본다


4. “그럼 신경망은 그냥 선형 모델인가?”

신경망이 항상 선형이 아니다.. 학습 중 특정 regime에서는 선형처럼 동작한다

논문이 말하는 조건은 명확하다.

선형성이 강하게 나타나는 조건

  • 네트워크 폭이 충분히 클 때
  • 초기화 스케일이 작을 때
  • Gradient Descent 기반 학습
  • 파라미터 이동량이 작을 때

이 조건에서는:

  • feature learning 거의 없음
  • representation은 초기화 시점에 결정
  • 학습은 weight fitting에 가까움

5. Feature Learning은 언제 발생하는가?

논문에서 특히 흥미로운 포인트는 여기다.

“우리가 기대하는 ‘비선형 표현 학습’은 실제로는 꽤 제한적인 조건에서만 발생한다.”

Feature learning이 두드러지는 경우:

  • 네트워크 폭이 제한적일 때
  • 학습률이 클 때
  • 파라미터가 initialization에서 멀리 이동할 때
  • Explicit regularization이 약할 때

대규모 모델 + 안정적 학습 = 선형화된 학습 동역학 이라는 결론에 도달한다.


6. 실험 결과 요약: Linearized NN vs Real NN

논문은 실제 신경망과 linearized model(NTK 근사)를 비교한다.

관찰 결과

  • 성능 차이 거의 없음
  • 학습 곡선도 매우 유사, 특히 overparameterized regime에서 차이가 작음

성능 향상이 항상 “복잡한 비선형 표현” 때문은 아닐 수 있다.


7. 이 논문이 중요한 이유 (실무 관점)

  • “더 큰 모델 = 더 똑똑한 표현 학습” → 반드시 성립하지 않는다. 모델 크기에 맹신하면 안된다.
  • 대규모 pretrained model에서 linear classifier만 얹어도 잘 되는 이유 설명
  • LLM / VLM 시대에 더 중요해진다.
    초대형 모델, 작은 파인튜닝. LoRA 기법 등 ‘국소 선형성’ 가정 위에 서 있다.

8. 우리는 무엇을 착각하고 있었나

이 논문은 말한다.

 

“신경망이 비선형이냐 아니냐”는 질문 자체가 틀렸을 수 있다.

어떤 학습 regime에서 어떤 방식으로 비선형성이 실제 성능에 기여하는가

우리가 쓰는 많은 딥러닝 모델이 이미 ‘거의 선형화된 세계’에서 학습되고 있다.


9. 마무리

Who Said Neural Networks Aren’t Linear? 는 신경망을 단순화하려는 논문이 아니다.

딥러닝을 “블랙박스”라고 부르기 전에, 그 박스가 생각보다 직선으로 움직이고 있을지도 모른다.

 

사실 연구를 철학적으로 푼 논문이지만,
곡선이 가까이서보면 직선이듯 Neural Networks이 가까이서 보면 Linear하다고 생각한다.

 

철학 책을 어렵게 읽은 느낌이었다.

 

https://arxiv.org/abs/2510.08570

 

Who Said Neural Networks Aren't Linear?

Neural networks are famously nonlinear. However, linearity is defined relative to a pair of vector spaces, $f$$:$$X$$\to$$Y$. Is it possible to identify a pair of non-standard vector spaces for which a conventionally nonlinear function is, in fact, linear?

arxiv.org