본문 바로가기


[논문 리뷰] DeiT 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. DeiTTraining data-efficient image transformers & distillation through attentionTOUVRON, Hugo, et al. Training data-efficient image transformers & distillation through attention. In: International conference on machine learning. PMLR, 2021. p. 10347-10357. 논문 원문 링크 저자의 의도convolution layer가 없으면서도 경쟁력 있는 트랜스포머를 만들어보자.1개의 컴퓨터에서 3일 이내.. 2024. 5. 13.
[논문 리뷰] V-JEPA 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. V-JEPAV-JEPA: Latent Video Prediction for Visual Representation LearningBARDES, Adrien, et al. V-JEPA: Latent Video Prediction for Visual Representation Learning. 2023.(ICLR 2024에 심사중으로 24.04.30. 현재는 오픈리뷰 논문만 존재. 오피셜 논문 공개 시 수정 예정.) 논문 원문 링크 메타의 움직임이 심상치 않다.V-JEPA가 오픈리뷰와 ICLR 논문 심사를 거치고 있는 중이다.그런데 여기 CV의 대가 얀 르쿤 교수님이 참여하셨다.얀 르쿤 교.. 2024. 4. 30.
[논문 리뷰] I-JEPA 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. I-JEPASelf-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ASSRAN, Mahmoud, et al. Self-supervised learning from images with a joint-embedding predictive architecture. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. p. 15619-15629. 논문 원문 링크 메타.. 2024. 4. 22.
[논문 리뷰] Vision Mamba(Vim) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Vision Mamba ZHU, Lianghui, et al. Vision mamba: Efficient visual representation learning with bidirectional state space model. arXiv preprint arXiv:2401.09417, 2024. 논문 원문 링크 저자의 의도 최근 효율적인 디자인의 state space model(SSM) Mamba가 긴 시퀸스 모델링에 큰 가능성을 보여줬다. 하지만 SSM 에게도 비전 문제는 어려운 문제다. 비주얼 데이터의 위치 민감도와 이미지 전체 맥락에 대한 이해가 필요하다. 고해상도 이미지 처리.. 2024. 4. 17.
[논문 리뷰] Swin Transformer 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Swin Transformer Swin transformer: Hierarchical vision transformer using shifted windows. LIU, Ze, et al. Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF international conference on computer vision. 2021. p. 10012-10022. 논문 원문 링크 이 논문은 MS에서 작성했다. (Microsoft Research Asia) .. 2024. 4. 9.
[논문 리뷰] DenseNet 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. DenseNet HUANG, Gao, et al. Densely connected convolutional networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. p. 4700-4708. 논문 원문 링크 저자의 의도 숏 커넥션이 포함된 경우 CNN은 훨씬 더 깊고 정확하게 만들 수 있다. DenseNet은 피드 포워드 방식으로 각 레이어를 다른 모든 레이어에 연결한다. 기존의 CNN보다 더 많은 연결로 밀도 높은, Dense한 CNN을 만들어보자. 기존 문제점 정보.. 2024. 4. 5.
[논문 리뷰] MAE(Masked Autoencoders) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MAE(Masked Autoencoders) Masked Autoencoders Are Scalable Vision Learners HE, Kaiming, et al. Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. p. 16000-16009. 논문 원문 링크 저자의 의도 MAE는 CV 분야의 scalable한 self-supervised 모델이다. 큰 모델을 효율적이고 효과적으로.. 2023. 10. 12.
[논문 리뷰] SAM(Segment Anything) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. SAM(Segment Anything) Segment Aything KIRILLOV, Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023. 논문 원문 링크 저자의 의도 NLP에는 GPT같은 패러다임을 바꾸는 혁신적인 모델이 있다. 그러나 CV에는 여전히 그런 모델이 등장하지 않고 있다. CV의 Foundation Model을 디자인 해보자. (zero-shot transfer) 이 모델을 학습시키기 위한 초거대 segmentation dataset을 만들어보자. 기존 문제점 NLP의 거대한 capabili.. 2023. 9. 13.
[논문 리뷰] MLP mixer 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MLP-Mixer MLP-Mixer: An all-MLP Architecture for Vision TOLSTIKHIN, Ilya O., et al. Mlp-mixer: An all-mlp architecture for vision. Advances in neural information processing systems, 2021, 34: 24261-24272. 논문 원문 링크 저자의 의도 CV 분야에서 가장 보편적인 모델 2개가 CNN과 Transformer 이다. 근데 근디 근대 저자의 관점은... convolution layer와 attention layer가 반드시 필요한건 .. 2023. 7. 15.
[논문 구현] ViT ImageNet 학습하는 방법 ImageNet 데이터셋을 받아야 한다. (이게 진짜 킹받는다 ^^) ImageNet 오피셜 홈페이지 https://image-net.org/download-images ImageNet Download ImageNet Data ImageNet does not own the copyright of the images. For researchers and educators who wish to use the images for non-commercial research and/or educational purposes, we can provide access through our site under certain conditions and image-net.org 선수입장 회원가입 이메일은 학교메일(마지막에.. 2023. 6. 8.