#efficient_models #foundation_models #generation #optimization #vision_transformer #CLS #token #Imagen #ViT #Vision #Transformer #attention #image #classification #image #patch #embedding #inductive #bias #large-scale #pre-training #position #embedding

이미지를 문장처럼 읽는 법🌌👀 - ViT

Apr 12, 2026

•

5 min read

이미지를 문장처럼 읽는 법🌌👀 - ViT

NLP의 왕좌를 차지한 Transformer를 컴퓨터 비전에 데려와, 이미지를 16x16 퍼즐 조각으로 쪼개 문장처럼 읽게 만든 논문

Jason Lee