#efficient_models #foundation_models #generation #optimization #vision_transformer #CLS #token #Imagen #ViT #Vision #Transformer #attention #image #classification #image #patch #embedding #inductive #bias #large-scale #pre-training #position #embedding
Apr 12, 2026
•
5 min read
NLP의 왕좌를 차지한 Transformer를 컴퓨터 비전에 데려와, 이미지를 16x16 퍼즐 조각으로 쪼개 문장처럼 읽게 만든 논문