ViT 논문 리뷰1 [논문 리뷰] Vision Transformer(ViT) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. ViT AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE DOSOVITSKIY, Alexey, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 논문 원문 링크 ViT를 보기 전에 standard transformer를 이해하길 바란다. Transformer 논문 리뷰, 논문 원문, 논문 요약, 논문 구현, Attention Is All .. 2023. 3. 22. 이전 1 다음