TL;DR
📋 핵심 발견
Self-supervised ViT의 attention map이 별도 학습 없이도 이미지의 semantic segmentation 정보를 명시적으로 담고 있음을 발견 — 라벨 없이 훈련한 모델이 '객체가 어디 있는지'를 스스로 알게 된다는 뜻입니다
ViT-S/16 기준 k-NN 분류에서 74.5% top-1 정확도 달성, 기존 최고 방법(BYOL, MoCo v2, SwAV) 대비 +7.9% 향상 — 단순한 최근접 이웃 방식만으로도 학습된 feature가 얼마나 강력한지를 증명합니다
ViT-B/8 모델로 ImageNet linear evaluation 80.1% top-1 달성, SimCLRv2 대비 10배 적은 파라미터와 1.4배 빠른 속도 — 더 작은 모델로 더 나은 성능을 낸 효율의 승리입니다
Batch Normalization 없이도 안정적인 self-supervised 학습이 가능함을 보여줌 — centering과 sharpening이라는 단순한 두 가지 연산만으로 학습 붕괴를 방지합니다
Emerging Properties in Self-Supervised Vision Transformers
arXiv: 2104.14294
💡이 논문이 등장한 배경
2021년, 컴퓨터 비전의 세계에서는 두 가지 큰 흐름이 동시에 진행되고 있었습니다. 하나는 Vision Transformer(ViT)의 등장이고, 다른 하나는 self-supervised learning의 부상이었습니다. 그런데 이 둘이 만나면 어떤 일이 벌어지는지는 아직 제대로 탐험되지 않은 영역이었습니다.
Self-supervised learning은 쉽게 말해 '정답지 없이 공부하는 방법'입니다. 수백만 장의 이미지에 일일이 '고양이', '강아지' 같은 라벨을 붙이는 것은 엄청난 비용이 들기 때문에, 이미지 자체에서 학습 신호를 만들어내는 연구가 활발했습니다. BYOL, SwAV, MoCo 같은 방법들이 이미 좋은 성과를 내고 있었지만, 이들은 주로 ResNet 같은 CNN 아키텍처에 맞춰져 있었습니다.
한편 ViT는 NLP의 Transformer를 비전에 가져온 신선한 시도였지만, 대규모 supervised 데이터셋이 필요하다는 한계가 있었습니다. 연구자들은 자연스럽게 이런 질문을 던졌습니다: 'ViT에 self-supervised learning을 적용하면 CNN과는 다른 무언가가 나타날까?' DINO는 바로 이 질문에 답하기 위해 탄생했습니다.
🔍 핵심 아이디어
DINO의 핵심 아이디어는 놀라울 정도로 직관적입니다. 학교에서 선생님이 칠판에 적은 내용을 학생이 따라 적는 장면을 떠올려 보세요. 그런데 여기서 특별한 점이 있습니다 — 선생님은 사실 학생의 '과거 버전'입니다. 학생이 점점 실력이 늘면, 그 실력이 천천히 선생님에게도 스며들어서, 선생님도 함께 성장합니다. 이것이 DINO의 self-distillation(자기 증류) 메커니즘입니다.

DINO의 전체 자기-지도 학습 파이프라인을 시각화합니다. 입력 이미지에서 생성된 멀티-크롭 뷰(글로벌 뷰, 로컬 뷰)가 학생(student) 및 모멘텀 교사(momentum teacher) 네트워크에 어떻게 전달되는지 보여줍니다. 교사 네트워크 출력에 적용되는 stop-gradient, centering, sharpening 연산과 교차 엔트로피 손실 계산, 그리고 모멘텀 EMA를 통한 교사 파라미터 업데이트 과정을 포함합니다.
더 구체적으로 들어가면, DINO는 하나의 이미지에서 여러 '뷰(view)'를 만들어냅니다. 이미지의 넓은 영역을 자른 글로벌 뷰(224×224) 2개와, 좁은 영역을 자른 로컬 뷰(96×96) 여러 개를 생성합니다. 학생(student) 네트워크는 모든 뷰를 처리하고, 교사(teacher) 네트워크는 글로벌 뷰만 봅니다. 학생은 부분만 보고도 전체를 이해하려 노력해야 하고, 교사는 전체를 보고 정답을 제시합니다. 이 비대칭 구조가 학생에게 '부분에서 전체를 유추하는 능력'을 길러줍니다.
교사 네트워크의 파라미터는 학생의 파라미터를 exponential moving average(EMA)로 천천히 따라갑니다. 모멘텀 계수 λ는 0.996에서 시작해 cosine schedule을 따라 1.0까지 올라갑니다. 이렇게 하면 교사는 학생의 '안정화된 버전'이 되어, 학습이 급격하게 흔들리는 것을 방지합니다.
가장 우아한 부분은 학습 붕괴(collapse)를 막는 방법입니다. Self-supervised learning에서 가장 큰 적은 모델이 모든 입력에 대해 같은 출력을 내뱉는 '붕괴' 현상인데, 기존 방법들은 이를 막기 위해 contrastive loss나 Batch Normalization 같은 무거운 장치가 필요했습니다. DINO는 centering과 sharpening이라는 두 가지 단순한 연산만으로 이 문제를 해결합니다.

DINO에서 모델 붕괴(collapse)를 방지하기 위해 사용되는 핵심 메커니즘인 교사 네트워크 출력의 Centering 및 Sharpening 연산의 역할을 개념적으로 설명하는 다이어그램을 생성합니다. 각 연산이 출력 분포에 미치는 영향(예: 한 차원의 지배 방지, 균일 분포 장려, 날카로운 분포 유도)과 이들이 상호 보완적으로 작동하여 안정적인 학습을 가능하게 하는 과정을 시각화합니다.
그리고 이 모든 것이 합쳐졌을 때, 놀라운 일이 벌어졌습니다. DINO로 학습된 ViT의 self-attention map을 시각화해보니, 모델이 이미지 속 객체의 경계를 명확하게 인식하고 있었습니다. 아무도 '이것이 새다', '여기가 경계다'라고 가르치지 않았는데도 말입니다. 이것은 supervised ViT나 CNN에서는 나타나지 않는, self-supervised ViT만의 'emergent property(창발적 속성)'이었습니다.

DINO로 사전 학습된 ViT의 자기-어텐션 맵이 이미지 내 객체의 시맨틱 분할 정보를 어떻게 명시적으로 추출하는지 보여줍니다. 원본 입력 이미지, ViT의 마지막 레이어에서 추출된 다양한 어텐션 헤드의 시각화된 맵, 그리고 이 맵을 통해 자동으로 형성되는 객체 경계선 또는 분할 마스크를 시각화하여 DINO ViT의 고유한 특성을 강조합니다.
🤔 어떻게 작동하는가
Step 1: Multi-crop — 하나의 이미지를 여러 시선으로 바라보기
하나의 이미지에서 글로벌 뷰 2개(224×224, 원본의 50% 이상 영역)와 로컬 뷰 여러 개(96×96, 원본의 50% 미만 영역)를 무작위로 자릅니다. 이것은 마치 미술관에서 그림을 멀리서 전체를 보기도 하고, 가까이 다가가서 디테일을 보기도 하는 것과 같습니다. 핵심은 교사 네트워크는 글로벌 뷰만, 학생 네트워크는 모든 뷰를 처리한다는 비대칭 구조입니다.

DINO의 전체 자기-지도 학습 파이프라인을 시각화합니다. 입력 이미지에서 생성된 멀티-크롭 뷰(글로벌 뷰, 로컬 뷰)가 학생(student) 및 모멘텀 교사(momentum teacher) 네트워크에 어떻게 전달되는지 보여줍니다. 교사 네트워크 출력에 적용되는 stop-gradient, centering, sharpening 연산과 교차 엔트로피 손실 계산, 그리고 모멘텀 EMA를 통한 교사 파라미터 업데이트 과정을 포함합니다.
Step 2: Student-Teacher 네트워크 — 과거의 나에게 배우기
Student와 teacher는 동일한 아키텍처(ViT 또는 ResNet)를 공유합니다. Student는 일반적인 backpropagation으로 학습되고, teacher의 파라미터는 student 파라미터의 EMA로 업데이트됩니다 (θt ← λθt + (1−λ)θs). λ는 0.996에서 1.0으로 cosine schedule을 따릅니다. Teacher에는 gradient가 흐르지 않습니다(stop-gradient). 이 구조 덕분에 teacher는 student의 '안정화된 앙상블' 역할을 하며, 별도의 negative sample이나 memory bank가 필요 없습니다.
Step 3: 출력 분포 매칭 — Cross-entropy로 선생님을 따라가기
Student와 teacher의 출력은 각각 softmax를 거쳐 확률 분포가 됩니다. Student에는 temperature τs=0.1, teacher에는 더 낮은 τt(0.04에서 0.07로 warm-up)를 적용합니다. Teacher의 낮은 temperature는 출력을 더 '날카롭게(sharp)' 만들어 더 확신에 찬 타겟을 제공합니다. 그런 다음 cross-entropy loss로 student의 출력이 teacher의 출력을 따라가도록 학습합니다.
Step 4: Centering & Sharpening — 붕괴를 막는 두 파수꾼
Centering은 teacher 출력에서 배치 평균을 빼는 연산입니다. 이것은 하나의 차원이 모든 출력을 지배하는 것을 방지합니다 — 만약 모델이 모든 이미지에 대해 같은 답을 내놓으려 하면, centering이 그 편향을 상쇄시킵니다. Sharpening은 낮은 temperature로 출력 분포를 뾰족하게 만드는 것으로, 모델이 균일 분포(uniform distribution)로 수렴하는 것을 방지합니다. 이 두 연산은 상호 보완적으로 작동합니다: centering만 있으면 균일 분포로 붕괴할 수 있고, sharpening만 있으면 하나의 차원 지배로 붕괴할 수 있지만, 둘을 함께 사용하면 안정적입니다.

DINO에서 모델 붕괴(collapse)를 방지하기 위해 사용되는 핵심 메커니즘인 교사 네트워크 출력의 Centering 및 Sharpening 연산의 역할을 개념적으로 설명하는 다이어그램을 생성합니다. 각 연산이 출력 분포에 미치는 영향(예: 한 차원의 지배 방지, 균일 분포 장려, 날카로운 분포 유도)과 이들이 상호 보완적으로 작동하여 안정적인 학습을 가능하게 하는 과정을 시각화합니다.
Step 5: 창발적 속성 — 아무도 가르치지 않은 능력의 출현
위 과정으로 학습된 ViT의 마지막 레이어 self-attention map을 시각화하면, 각 attention head가 이미지 내 서로 다른 semantic 영역을 명확하게 포착하고 있음을 볼 수 있습니다. 하나의 head는 새의 몸통을, 다른 head는 배경을 주시합니다. 이러한 semantic segmentation 능력은 supervised ViT에서는 관찰되지 않으며, CNN에서도 이 정도로 명시적이지 않습니다. 이것은 self-supervised learning과 ViT의 조합에서만 나타나는 창발적 속성입니다.

DINO로 사전 학습된 ViT의 자기-어텐션 맵이 이미지 내 객체의 시맨틱 분할 정보를 어떻게 명시적으로 추출하는지 보여줍니다. 원본 입력 이미지, ViT의 마지막 레이어에서 추출된 다양한 어텐션 헤드의 시각화된 맵, 그리고 이 맵을 통해 자동으로 형성되는 객체 경계선 또는 분할 마스크를 시각화하여 DINO ViT의 고유한 특성을 강조합니다.
🛠️ 실험이 말해주는 것
DINO의 실험은 두 가지 질문에 답합니다: 이 방법이 얼마나 강력한가, 그리고 각 구성요소가 얼마나 중요한가.
성능 면에서, DINO ViT-S/16은 ImageNet linear evaluation에서 77.0%, k-NN에서 74.5%를 달성했습니다. 특히 k-NN 결과는 기존 최고 방법들(BYOL, MoCo v2, SwAV) 대비 +7.9% 향상된 것으로, 학습된 feature가 복잡한 분류기 없이도 바로 쓸 수 있을 만큼 강력하다는 것을 보여줍니다. 패치 크기를 8×8로 줄인 ViT-B/8은 80.1% linear evaluation 정확도를 기록하며, SimCLRv2를 10배 적은 파라미터로 능가했습니다.

Vision Transformer의 입력 패치 크기(예: 16x16, 8x8, 5x5) 변화가 DINO로 학습된 모델의 k-NN 분류 정확도와 처리량(throughput)에 어떻게 영향을 미치는지 시각화합니다. 더 작은 패치 크기가 더 높은 정확도를 제공하지만 처리량 감소로 이어지는 trade-off 관계를 보여줍니다.
Ablation study는 각 구성요소의 중요성을 명확히 드러냅니다. 가장 결정적인 발견은 모멘텀 인코더를 제거하면 학습이 완전히 붕괴한다는 것입니다 — 모멘텀 없이는 DINO가 아예 작동하지 않습니다. Multi-crop 전략과 cross-entropy loss도 핵심 요소로 확인되었고, 반면 student에 predictor를 추가하는 것은 거의 영향이 없었습니다. 패치 크기에 관해서는, 크기가 줄어들수록 성능이 크게 향상되지만 처리량도 함께 감소하는 trade-off가 존재합니다 (5×5 패치: 44 im/s vs 8×8 패치: 180 im/s).

DINO 프레임워크의 다양한 핵심 구성요소(예: 모멘텀 인코더, 멀티-크롭 훈련, 손실 함수 유형)가 ViT의 자기-지도 학습 성능에 미치는 영향을 비교하여 보여주는 다이어그램을 만듭니다. 각 구성요소의 유무 또는 변형에 따른 k-NN 및 선형 분류 정확도 변화를 요약하여 DINO의 핵심 설계 선택의 중요성을 강조합니다.
⚡️ 현실 세계의 임팩트
Meta AI는 DINO를 DINOv2(2023)로 발전시켜 142M 이미지로 학습한 범용 visual feature extractor를 공개했고, 더 나아가 DINOv3(2025)에서는 17억 장의 이미지로 학습한 70억 파라미터 모델을 오픈소스로 출시했습니다. 이 계보는 DINO가 단순한 연구 논문을 넘어 산업적 스케일의 비전 AI 플랫폼으로 성장했음을 보여줍니다
NASA JPL은 화성 탐사 로봇에 DINOv2를 활용하고 있으며, World Resources Institute(WRI)는 DINOv3로 위성 이미지를 분석해 산림 벌채를 모니터링합니다. DINOv3 학습 모델은 케냐 지역 수관 높이 측정 오차를 DINOv2 대비 4.1m에서 1.2m로 줄이는 등 실질적 환경 모니터링 성과를 내고 있습니다
의료 영상 분야에서 DINOv2는 대량의 비라벨 데이터를 활용한 진단 및 연구를 지원하고 있으며, 자율주행, 소매업, 제조업 등 다양한 산업에서 visual backbone으로 채택되고 있습니다
Google Scholar 기준 DINO 원논문은 2022년에만 1,219회 인용되었고, 2026년 현재까지 컴퓨터 비전 self-supervised learning 분야의 가장 영향력 있는 논문 중 하나로 자리잡았습니다. DINO → DINOv2 → DINOv3로 이어지는 연구 라인은 Meta AI의 비전 연구를 대표하는 축이 되었습니다
☝️ 연구의 계보
DINO는 knowledge distillation(Hinton et al., 2015)과 self-supervised contrastive learning(MoCo, BYOL, SwAV) 위에 세워졌으며, 특히 BYOL의 teacher-student 구조와 SwAV의 multi-crop 전략에서 직접적 영감을 받았습니다. 동시에 ViT(Dosovitskiy et al., 2020)가 비전에서도 Transformer가 작동함을 보인 직후 나온 논문으로, self-supervised learning과 ViT의 첫 본격적 결합이라는 시의적 의미가 있습니다. DINO 이후, iBOT(masked image modeling과의 결합), DINOv2(산업 스케일 확장), DINOv3(70억 파라미터), 그리고 Segment Anything Model(SAM) 같은 후속 연구들이 DINO의 self-supervised ViT feature가 보여준 가능성을 더 넓은 영역으로 확장했습니다.
🫸 강점과 한계
[강점] Self-supervised ViT에서 semantic segmentation 능력이 자연스럽게 나타난다는 발견은 이 분야의 연구 방향을 근본적으로 바꾼 통찰입니다
[강점] Centering + sharpening이라는 극도로 단순한 메커니즘으로 학습 붕괴를 방지하면서 BN을 완전히 제거한 설계가 우아합니다
[강점] k-NN 분류기만으로 강력한 성능을 달성한 것은 학습된 representation의 품질을 직접적으로 증명하는 설득력 있는 평가 방식입니다
[한계] 실험이 ImageNet에 집중되어 있으며, 다른 도메인(의료, 위성 등)에서의 transfer 성능은 논문에서 다루지 않습니다
[한계] ViT-B/8처럼 작은 패치를 사용할수록 성능은 올라가지만 처리량이 급감(44 im/s)하여, 실제 배포 환경에서의 실용성에 제약이 있습니다
[시사점] Self-supervised learning이 단순히 라벨 비용을 절약하는 것을 넘어, supervised learning에서는 나타나지 않는 새로운 representation 특성을 이끌어낼 수 있다는 점은 학습 패러다임 자체에 대한 재고를 촉구합니다
k-NN 74.5% / linear 77.0% — ViT-S/16 기준, Table 2 참조
Linear eval 80.1% — ViT-B/8 기준, ImageNet top-1, Table 2
기존 방법 대비 +7.9% (k-NN) — BYOL, MoCo v2, SwAV 대비, ViT-S/16 기준
SimCLRv2 대비 10× 적은 파라미터 — Section 5, ViT-B vs SimCLRv2 비교
모멘텀 제거 시 학습 붕괴 — Table 7, ablation study
패치 크기 trade-off — 5×5: 44 im/s, 8×8: 180 im/s, Table 3 및 Section 5
τ_t warm-up 0.04→0.07 — 첫 30 epoch 동안, Section 4
안녕하세요 제이슨입니다!🤗 오늘 다이제스트 어땠나요?
코멘트가 있으시면 저에게 LinkedIn DM으로 알려주세요.
피드백은 향후 양질의 뉴스래터 컨텐츠 퀄리티 향상에 큰 도움이 됩니다! 🙌
최신 논문을 씹고 뜯고 소화하는 PaperGOAT — 🗞️🐐
Greatest of All Time — It’s You🫵
AI 엔지니어 3,000명이 아침마다 여는 논문 브리핑⚡️
유료급 퀄리티, 하지만 무료❗️
최신 AI 논문 요약 뉴스래터를 매일 받아보세요📩

