분류 전체보기93 [논문 리뷰] LLaVA-UHD 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. LLaVA-UHDLLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution ImagesXU, Ruyi, et al. Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images. arXiv preprint arXiv:2403.11703, 2024. 논문 원문 링크 별로 기대하지 않고 본 논문인데 내용이 매ㅐㅐㅐㅐㅐㅐㅐㅐㅐ우 흥미롭다.그리고 vision 하는 사람들의 진짜 고민인 부분을 잘 건드린 논문이라고 생각한다. 저자의 의도visual 인코딩은 large .. 2024. 6. 19. [논문 리뷰] MambaOut 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MambaOutMambaOut: Do We Really Need Mamba for Vision?YU, Weihao; WANG, Xinchao. MambaOut: Do We Really Need Mamba for Vision?. arXiv preprint arXiv:2405.07992, 2024. 논문 원문 링크 엄청난 어그로성 제목의 논문이 나왔다.(이정도면 유투바 아니냐고....)접근이 신선하고 비슷한 생각을 해본 적이 있기 때문에 읽었는데...결론이 좀 허망하게 난 경향이 있다.너무 기대하고 읽을 필요는 없겠다. 저자의 의도Mamba는 어텐션 매커니즘의 2차함수 복잡성을 해결하는데 .. 2024. 6. 11. [논문 리뷰] MoCo v3 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MoCo v3An Empirical Study of Training Self-Supervised Vision TransformersCHEN, Xinlei; XIE, Saining; HE, Kaiming. An empirical study of training self-supervised vision transformers. In: Proceedings of the IEEE/CVF international conference on computer vision. 2021. p. 9640-9649. 논문 원문 링크 저자의 의도새로운 방법을 제시하는 것은 아니다.ViT의 self-supervi.. 2024. 6. 4. [논문 리뷰] MoCo v2 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MoCo v2Improved Baselines with Momentum Contrastive LearningCHEN, Xinlei, et al. Improved baselines with momentum contrastive learning. arXiv preprint arXiv:2003.04297, 2020. 논문 원문 링크 저자의 의도SimCLR을 MoCo 프레임워크 안에서 학습시켜보자.MoCo를 SimCLR의 MLP projection head, augmentation을 사용해 수정해보자.SimCLR의 관점에서는 거대한 학습 배치 문제를 개선해보자. 기존 문제점MoCo의 작업 효율.. 2024. 5. 27. [논문 리뷰] MoCo v1 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MoCo v1Momentum Contrast for Unsupervised Visual Representation LearningHE, Kaiming, et al. Momentum contrast for unsupervised visual representation learning. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. p. 9729-9738. 논문 원문 링크 저자의 의도비지도학습에 특화된 크고 일관성 있는 딕셔너리를 구축해보자.visual representa.. 2024. 5. 22. [논문 리뷰] DeiT 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. DeiTTraining data-efficient image transformers & distillation through attentionTOUVRON, Hugo, et al. Training data-efficient image transformers & distillation through attention. In: International conference on machine learning. PMLR, 2021. p. 10347-10357. 논문 원문 링크 저자의 의도convolution layer가 없으면서도 경쟁력 있는 트랜스포머를 만들어보자.1개의 컴퓨터에서 3일 이내.. 2024. 5. 13. [논문 리뷰] V-JEPA 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. V-JEPAV-JEPA: Latent Video Prediction for Visual Representation LearningBARDES, Adrien, et al. V-JEPA: Latent Video Prediction for Visual Representation Learning. 2023.(ICLR 2024에 reject 되어 수정 중. 24/04/30 현재는 오픈리뷰 논문만 존재. 오피셜 논문 공개 시 수정 예정.) 논문 원문 링크 메타의 움직임이 심상치 않다.V-JEPA가 오픈리뷰와 ICLR 논문 심사를 거치고 있는 중이다.그런데 여기 CV의 대가 얀 르쿤 교수님이 참여하.. 2024. 4. 30. [논문 리뷰] I-JEPA 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. I-JEPASelf-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ASSRAN, Mahmoud, et al. Self-supervised learning from images with a joint-embedding predictive architecture. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. p. 15619-15629. 논문 원문 링크 메타.. 2024. 4. 22. [논문 리뷰] Vision Mamba(Vim) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Vision Mamba ZHU, Lianghui, et al. Vision mamba: Efficient visual representation learning with bidirectional state space model. arXiv preprint arXiv:2401.09417, 2024. 논문 원문 링크 저자의 의도 최근 효율적인 디자인의 state space model(SSM) Mamba가 긴 시퀸스 모델링에 큰 가능성을 보여줬다. 하지만 SSM 에게도 비전 문제는 어려운 문제다. 비주얼 데이터의 위치 민감도와 이미지 전체 맥락에 대한 이해가 필요하다. 고해상도 이미지 처리.. 2024. 4. 17. [논문 리뷰] Swin Transformer 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Swin Transformer Swin transformer: Hierarchical vision transformer using shifted windows. LIU, Ze, et al. Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF international conference on computer vision. 2021. p. 10012-10022. 논문 원문 링크 이 논문은 MS에서 작성했다. (Microsoft Research Asia) .. 2024. 4. 9. 이전 1 ··· 3 4 5 6 7 8 9 10 다음