신경망을 ‘비선형 블랙박스’로만 봐도 될까?
Neural networks are nonlinear function approximators.
이 문장은 너무 자주 반복되며 거의 진리처럼 받아들여진다.
〈Who Said Neural Networks Aren’t Linear?〉 이 논문은 신경망의 출력이 아니라, 신경망이 학습 과정에서 만들어내는 함수 공간의 구조를 다시 바라보며 “신경망은 생각보다 훨씬 선형적(linear)일 수 있다”는 도발적인 주장을 던진다.
특히 Linear 인지 UnLinear인지에 따라 달라질 수 있는 수학적 사고가 있기에 재밌어보여 리뷰하고자 한다.
1. 우리는 ‘출력의 비선형성’만 보고 있다.
일반적으로 신경망의 비선형성은 다음 근거로 설명된다.
- ReLU, Sigmoid 같은 비선형 활성함수
- 깊은 레이어를 거치며 생기는 복잡한 표현
- Universal Approximation Theorem
하지만 이 논문은 질문을 바꾼다.
“출력 함수가 비선형이라는 사실이 학습된 모델의 거동까지 비선형임을 의미하는가?"
2. Neural Network는 ‘국소적으로는.. 선형 모델’이다
논문의 핵심 통찰은 다음 한 문장으로 요약된다.
신경망은 파라미터 공간에서 매우 넓은 영역에 걸쳐 ‘선형 모델처럼 행동한다’

3. Neural Tangent Kernel (NTK) 관점
이 논문은 NTK(Neural Tangent Kernel) 프레임워크를 적극 활용한다.
핵심 아이디어
- 무한히 넓은(width → ∞) 신경망에서는 학습 중 파라미터가 크게 변하지 않음
- 결과적으로 모델은 초기화 지점 근처에서 1차 테일러 근사로 충분
학습은 사실상 고정된 feature space와 선형 회귀 문제로 본다
4. “그럼 신경망은 그냥 선형 모델인가?”
신경망이 항상 선형이 아니다.. 학습 중 특정 regime에서는 선형처럼 동작한다
논문이 말하는 조건은 명확하다.
선형성이 강하게 나타나는 조건
- 네트워크 폭이 충분히 클 때
- 초기화 스케일이 작을 때
- Gradient Descent 기반 학습
- 파라미터 이동량이 작을 때
이 조건에서는:
- feature learning 거의 없음
- representation은 초기화 시점에 결정
- 학습은 weight fitting에 가까움
5. Feature Learning은 언제 발생하는가?
논문에서 특히 흥미로운 포인트는 여기다.
“우리가 기대하는 ‘비선형 표현 학습’은 실제로는 꽤 제한적인 조건에서만 발생한다.”
Feature learning이 두드러지는 경우:
- 네트워크 폭이 제한적일 때
- 학습률이 클 때
- 파라미터가 initialization에서 멀리 이동할 때
- Explicit regularization이 약할 때
대규모 모델 + 안정적 학습 = 선형화된 학습 동역학 이라는 결론에 도달한다.
6. 실험 결과 요약: Linearized NN vs Real NN
논문은 실제 신경망과 linearized model(NTK 근사)를 비교한다.
관찰 결과
- 성능 차이 거의 없음
- 학습 곡선도 매우 유사, 특히 overparameterized regime에서 차이가 작음
성능 향상이 항상 “복잡한 비선형 표현” 때문은 아닐 수 있다.
7. 이 논문이 중요한 이유 (실무 관점)
- “더 큰 모델 = 더 똑똑한 표현 학습” → 반드시 성립하지 않는다. 모델 크기에 맹신하면 안된다.
- 대규모 pretrained model에서 linear classifier만 얹어도 잘 되는 이유 설명
- LLM / VLM 시대에 더 중요해진다.
초대형 모델, 작은 파인튜닝. LoRA 기법 등 ‘국소 선형성’ 가정 위에 서 있다.
8. 우리는 무엇을 착각하고 있었나
이 논문은 말한다.
“신경망이 비선형이냐 아니냐”는 질문 자체가 틀렸을 수 있다.
어떤 학습 regime에서 어떤 방식으로 비선형성이 실제 성능에 기여하는가
우리가 쓰는 많은 딥러닝 모델이 이미 ‘거의 선형화된 세계’에서 학습되고 있다.
9. 마무리
Who Said Neural Networks Aren’t Linear? 는 신경망을 단순화하려는 논문이 아니다.
딥러닝을 “블랙박스”라고 부르기 전에, 그 박스가 생각보다 직선으로 움직이고 있을지도 모른다.
사실 연구를 철학적으로 푼 논문이지만,
곡선이 가까이서보면 직선이듯 Neural Networks이 가까이서 보면 Linear하다고 생각한다.
철학 책을 어렵게 읽은 느낌이었다.
https://arxiv.org/abs/2510.08570
Who Said Neural Networks Aren't Linear?
Neural networks are famously nonlinear. However, linearity is defined relative to a pair of vector spaces, $f$$:$$X$$\to$$Y$. Is it possible to identify a pair of non-standard vector spaces for which a conventionally nonlinear function is, in fact, linear?
arxiv.org