본문 바로가기

논문 요약10

[논문 리뷰] SAM(Segment Anything) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. SAM(Segment Anything) Segment Aything KIRILLOV, Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023. 논문 원문 링크 저자의 의도 NLP에는 GPT같은 패러다임을 바꾸는 혁신적인 모델이 있다. 그러나 CV에는 여전히 그런 모델이 등장하지 않고 있다. CV의 Foundation Model을 디자인 해보자. (zero-shot transfer) 이 모델을 학습시키기 위한 초거대 segmentation dataset을 만들어보자. 기존 문제점 NLP의 거대한 capabili.. 2023. 9. 13.
[논문 리뷰] MLP mixer 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MLP-Mixer MLP-Mixer: An all-MLP Architecture for Vision TOLSTIKHIN, Ilya O., et al. Mlp-mixer: An all-mlp architecture for vision. Advances in neural information processing systems, 2021, 34: 24261-24272. 논문 원문 링크 저자의 의도 CV 분야에서 가장 보편적인 모델 2개가 CNN과 Transformer 이다. 근데 근디 근대 저자의 관점은... convolution layer와 attention layer가 반드시 필요한건 .. 2023. 7. 15.
[논문 리뷰] CoAtNet 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. CoAtNet CoAtNet: Marrying Convolution and Attention for All Data Sizes DAI, Zihang, et al. Coatnet: Marrying convolution and attention for all data sizes. Advances in Neural Information Processing Systems, 2021, 34: 3965-3977. 논문 원문 링크 저자의 의도 효율적으로 CNN과 Self-attention의 장점만 결합해보자. Depth-wise Conv와 relative attention을 활용하면 두 구조를 합.. 2023. 5. 24.
[논문 리뷰] ViT Robustness 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. ViT Robustness Understanding and Improving Robustness of Vision Transformers through Patch-based Negative Augmentation QIN, Yao, et al. Understanding and improving robustness of vision transformers through patch-based negative augmentation. Advances in Neural Information Processing Systems, 2022, 35: 16276-16289. 논문 원문 링크 저자의 의도.. 2023. 5. 8.
[논문 리뷰] ViT-G/14 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. ViT-G/14 Scaling Vision Transformer ZHAI, Xiaohua, et al. Scaling vision transformers. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. p. 12104-12113. 논문 원문 링크 일단 이 논문을 읽기 전에 ViT에 대한 내용을 완전히 이해하는걸 추천한다. [논문 리뷰] Vision Transformer(ViT) | 논문 원문, 논문 요약, 논문 구현, AN IMAGE IS WORTH 16X16 WOR.. 2023. 4. 10.
[논문 리뷰] Vision Transformer(ViT) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. ViT AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE DOSOVITSKIY, Alexey, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 논문 원문 링크 ViT를 보기 전에 standard transformer를 이해하길 바란다. Transformer 논문 리뷰, 논문 원문, 논문 요약, 논문 구현, Attention Is All .. 2023. 3. 22.
[논문 리뷰] UNet 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. UNet U-Net: Convolutional Networks for Biomedical Image Segmentation RONNEBERGER, Olaf; FISCHER, Philipp; BROX, Thomas. U-net: Convolutional networks for biomedical image segmentation. In: Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Pr.. 2023. 3. 20.
[논문 리뷰] Inception v1 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Inception v1 Going deeper with convolutions SZEGEDY, Christian, et al. Going deeper with convolutions. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. p. 1-9. 논문 원문 링크 저자의 의도 이 당시에는 깊은 네트워크에 대한 아이디어 창출이 가장 핫했다. 저자는 gradient vanishing이 없는 더 깊은 네트워크를 만들고자 했다. 특히 Hebbian principle이라는 뉴로사이언스 .. 2023. 3. 16.
[논문 리뷰] VGGNet 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. VGGNet Very Deep Convolutional Networks for Large-Scale Image Recognition SIMONYAN, Karen; ZISSERMAN, Andrew. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 논문 원문 링크 저자의 의도 3x3의 작은 크기의 필터를 사용해서 모델의 depth를 늘려보자. 기존의 문제점 AlexNet이나 ZFNet 같은 모델들은 large scale의 이미지를 처리하는데 문제가 .. 2023. 3. 15.
[논문 리뷰] Transformer (Attention Is All You Need) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Transformer Attention Is All You Need VASWANI, Ashish, et al. Attention is all you need. Advances in neural information processing systems, 2017, 30. 논문 원문 링크 저자의 의도 CNN과 RNN에서 인코더와 디코더가 널리 사용되는데, 인코더 디코더 로만 구성된 새로운 간단한 아키텍쳐를 만들고자 했다. 특히 RNN에서 길이가 긴 시퀸스는 학습이 잘 안되는 경향이 있었다. 길이가 길어도 학습이 잘 되는 모델을 만들고자 했다. 기존 문제점 1. 기존의 RNN에서 길이가 긴 .. 2023. 3. 14.