본문 바로가기

논문리뷰31

[논문 구현] ImageNet-21k 데이터셋 pre-training 방법 ViT는 트랜스포머의 일종이다.트랜스포머의 핵심은 초거대 파라미터를 운용하는 것인데,이를 위해 필수적인 것이 바로 pre-training이다. ViT는 기본적으로 ImageNet-21k에서 pre-training 하고,ImageNet-1k(2012)에서 fine-tuning한다.(이 포스팅에서는 ImageNet-1k가 아니라 21k를 찾는 법이니 혼동하지 않길 바랍니다.) 이런건 어디서 알 수 있냐면 라이브러리 깃허브를 참고하면 된다.https://github.com/google-research/vision_transformer 가끔... 아주 가끔... 이 pre-training을 직접 해야하는 괴랄한 상황이 생긴다.그래서 ImageNet-21k를 다운받아야 하는 곤란한 상황이 .. 2023. 6. 8.
[논문 리뷰] CoAtNet 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. CoAtNet CoAtNet: Marrying Convolution and Attention for All Data Sizes DAI, Zihang, et al. Coatnet: Marrying convolution and attention for all data sizes. Advances in Neural Information Processing Systems, 2021, 34: 3965-3977. 논문 원문 링크 저자의 의도 효율적으로 CNN과 Self-attention의 장점만 결합해보자. Depth-wise Conv와 relative attention을 활용하면 두 구조를 합.. 2023. 5. 24.
[논문 리뷰] ViT Robustness 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. ViT Robustness Understanding and Improving Robustness of Vision Transformers through Patch-based Negative Augmentation QIN, Yao, et al. Understanding and improving robustness of vision transformers through patch-based negative augmentation. Advances in Neural Information Processing Systems, 2022, 35: 16276-16289. 논문 원문 링크 저자의 의도.. 2023. 5. 8.
[논문 리뷰] ViT-G/14 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. ViT-G/14 Scaling Vision Transformer ZHAI, Xiaohua, et al. Scaling vision transformers. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. p. 12104-12113. 논문 원문 링크 일단 이 논문을 읽기 전에 ViT에 대한 내용을 완전히 이해하는걸 추천한다. [논문 리뷰] Vision Transformer(ViT) | 논문 원문, 논문 요약, 논문 구현, AN IMAGE IS WORTH 16X16 WOR.. 2023. 4. 10.
[논문 구현] ViT ImageNet 평가 방법 ViT는 트랜스포머 중에서 그나마 간단한 형태이다. 실제로 구현하는게 그리 어렵지는 않다. 하지만.......... 논문에서 '대용량 pre-training'이 안된 ViT는 퍼포먼스가 상당히 떨어진다고 나온다. 다시 말해서 시간도 오래 걸리고 귀찮다................................. 다행히 나만 귀찮은게 아니라 천조국 형들도 귀찮았나 보다. 누군가 이미 라이브러리로 만들어놨다. https://timm.fast.ai/ 이걸로 모델을 만들어보자. 일단 설치 pip install timm 그리고 OOP로 작성된 코드는 다음과 같다. (device는 맥북이면 mps, 윈도우면 cuda) import timm import torch import torchvision import torc.. 2023. 3. 28.
[논문 리뷰] Vision Transformer(ViT) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. ViT AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE DOSOVITSKIY, Alexey, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 논문 원문 링크 ViT를 보기 전에 standard transformer를 이해하길 바란다. Transformer 논문 리뷰, 논문 원문, 논문 요약, 논문 구현, Attention Is All .. 2023. 3. 22.
[논문 리뷰] UNet 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. UNet U-Net: Convolutional Networks for Biomedical Image Segmentation RONNEBERGER, Olaf; FISCHER, Philipp; BROX, Thomas. U-net: Convolutional networks for biomedical image segmentation. In: Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Pr.. 2023. 3. 20.
[논문 리뷰] Inception v1 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Inception v1 Going deeper with convolutions SZEGEDY, Christian, et al. Going deeper with convolutions. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. p. 1-9. 논문 원문 링크 저자의 의도 이 당시에는 깊은 네트워크에 대한 아이디어 창출이 가장 핫했다. 저자는 gradient vanishing이 없는 더 깊은 네트워크를 만들고자 했다. 특히 Hebbian principle이라는 뉴로사이언스 .. 2023. 3. 16.
[논문 리뷰] VGGNet 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. VGGNet Very Deep Convolutional Networks for Large-Scale Image Recognition SIMONYAN, Karen; ZISSERMAN, Andrew. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 논문 원문 링크 저자의 의도 3x3의 작은 크기의 필터를 사용해서 모델의 depth를 늘려보자. 기존의 문제점 AlexNet이나 ZFNet 같은 모델들은 large scale의 이미지를 처리하는데 문제가 .. 2023. 3. 15.
[논문 리뷰] Transformer (Attention Is All You Need) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Transformer Attention Is All You Need VASWANI, Ashish, et al. Attention is all you need. Advances in neural information processing systems, 2017, 30. 논문 원문 링크 저자의 의도 CNN과 RNN에서 인코더와 디코더가 널리 사용되는데, 인코더 디코더 로만 구성된 새로운 간단한 아키텍쳐를 만들고자 했다. 특히 RNN에서 길이가 긴 시퀸스는 학습이 잘 안되는 경향이 있었다. 길이가 길어도 학습이 잘 되는 모델을 만들고자 했다. 기존 문제점 1. 기존의 RNN에서 길이가 긴 .. 2023. 3. 14.