본문 바로가기

cv18

딥러닝 공부 순서 정리 (for CV, Computer Vision) 딥러닝을 처음 배우는 사람에게 길잡이가 되기 위한 글이다. 나는 딥러닝 석사 출신 데이터 사이언티스트다.내가 석사에 입학하고 그해 ChatGPT가 흥하기 시작했다.어떻게 보면 AI를 온전히 연구한 첫 석사인 셈이다. 하지만 내가 입학했던 3월에는 ChatGPT가 없었다.따라서 딥러닝 논문들을 어떤 순서로 공부해야하는지 막막했다.ChatGPT는 그때 당시 신생아에 불과했다.이런거 물어보면 2021년 전 논문만 알고 있었다. (ㄹㅇ 킹받) 그때 겪은 고통으로 나만의 아카이브와 공부 순서를 정리해놨다. 그리고 이걸 이 글에서 정리해서 포스팅 하려고 한다.뭐부터 해야할지 방황(?)하는 연구자들에게 힘이 되었으면 한다. 그리고 나의 주 연구 분야는 비전이다.따라서 이 글에서는 비전을 먼저 다룰 예정이다. 1. .. 2025. 6. 1.
[논문 리뷰] data2vec 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. data2vecdata2vec: A General Framework for Self-supervised Learning in Speech, Vision and LanguageBAEVSKI, Alexei, et al. Data2vec: A general framework for self-supervised learning in speech, vision and language. In: International Conference on Machine Learning. PMLR, 2022. p. 1298-1312. 논문 원문 링크 저자의 의도general self-supervised lear.. 2024. 7. 16.
[논문 리뷰] iBOT 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. iBOTiBOT: Image BERT Pre-Training with Online TokenizerZHOU, Jinghao, et al. ibot: Image bert pre-training with online tokenizer. arXiv preprint arXiv:2111.07832, 2021. 논문 원문 링크 저자의 의도MIM 연구를 통해 visual tokenizer의 장점과 문제점을 연구해보자.online tokenizer를 사용한 self-supervised 프레임워크 iBOT를 제시한다.온라인의 의미는 사전 학습된 고정값이 아니라 모델과 함께 학습되는 것을 뜻한다.마스크 .. 2024. 7. 11.
[논문 리뷰] DINO 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. DINOEmerging Properties in Self-Supervised Vision TransformersCARON, Mathilde, et al. Emerging properties in self-supervised vision transformers. In: Proceedings of the IEEE/CVF international conference on computer vision. 2021. p. 9650-9660. 논문 원문 링크 저자의 의도self-supervised learning(SSL)이 ViT에 새로운 특성을 부여하는지에 대한 연구이다.SSL + ViT 조합에 .. 2024. 7. 11.
[논문 리뷰] CAE(Context Autoencoder) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. CAEContext Autoencoder for Self-Supervised Representation LearningCHEN, Xiaokang, et al. Context autoencoder for self-supervised representation learning. International Journal of Computer Vision, 2024, 132.1: 208-223. 논문 원문 링크 I-JEPA에 레퍼런스로 나와서 읽어봤다.representation space에서 학습하는 개념 측면에서 I-JEPA와 매우 유사하다.근데 전체적으로 용어가 왔다갔다하고 문장도 지나치게 .. 2024. 6. 25.
[논문 리뷰] LLaVA-UHD 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. LLaVA-UHDLLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution ImagesXU, Ruyi, et al. Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images. arXiv preprint arXiv:2403.11703, 2024. 논문 원문 링크 별로 기대하지 않고 본 논문인데 내용이 매ㅐㅐㅐㅐㅐㅐㅐㅐㅐ우 흥미롭다.그리고 vision 하는 사람들의 진짜 고민인 부분을 잘 건드린 논문이라고 생각한다. 저자의 의도visual 인코딩은 large .. 2024. 6. 19.
[논문 리뷰] MambaOut 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MambaOutMambaOut: Do We Really Need Mamba for Vision?YU, Weihao; WANG, Xinchao. MambaOut: Do We Really Need Mamba for Vision?. arXiv preprint arXiv:2405.07992, 2024. 논문 원문 링크 엄청난 어그로성 제목의 논문이 나왔다.(이정도면 유투바 아니냐고....)접근이 신선하고 비슷한 생각을 해본 적이 있기 때문에 읽었는데...결론이 좀 허망하게 난 경향이 있다.너무 기대하고 읽을 필요는 없겠다. 저자의 의도Mamba는 어텐션 매커니즘의 2차함수 복잡성을 해결하는데 .. 2024. 6. 11.
[논문 리뷰] MoCo v3 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MoCo v3An Empirical Study of Training Self-Supervised Vision TransformersCHEN, Xinlei; XIE, Saining; HE, Kaiming. An empirical study of training self-supervised vision transformers. In: Proceedings of the IEEE/CVF international conference on computer vision. 2021. p. 9640-9649. 논문 원문 링크 저자의 의도새로운 방법을 제시하는 것은 아니다.ViT의 self-supervi.. 2024. 6. 4.
[논문 리뷰] MoCo v2 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MoCo v2Improved Baselines with Momentum Contrastive LearningCHEN, Xinlei, et al. Improved baselines with momentum contrastive learning. arXiv preprint arXiv:2003.04297, 2020. 논문 원문 링크 저자의 의도SimCLR을 MoCo 프레임워크 안에서 학습시켜보자.MoCo를 SimCLR의 MLP projection head, augmentation을 사용해 수정해보자.SimCLR의 관점에서는 거대한 학습 배치 문제를 개선해보자. 기존 문제점MoCo의 작업 효율.. 2024. 5. 27.
[논문 리뷰] MoCo v1 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MoCo v1Momentum Contrast for Unsupervised Visual Representation LearningHE, Kaiming, et al. Momentum contrast for unsupervised visual representation learning. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. p. 9729-9738. 논문 원문 링크 저자의 의도비지도학습에 특화된 크고 일관성 있는 딕셔너리를 구축해보자.visual representa.. 2024. 5. 22.