딥러닝을 처음 배우는 사람에게 길잡이가 되기 위한 글이다.
나는 딥러닝 석사 출신 데이터 사이언티스트다.
내가 석사에 입학하고 그해 ChatGPT가 흥하기 시작했다.
어떻게 보면 AI를 온전히 연구한 첫 석사인 셈이다.
하지만 내가 입학했던 3월에는 ChatGPT가 없었다.
따라서 딥러닝 논문들을 어떤 순서로 공부해야하는지 막막했다.
ChatGPT는 그때 당시 신생아에 불과했다.
이런거 물어보면 2021년 전 논문만 알고 있었다. (ㄹㅇ 킹받)
그때 겪은 고통으로 나만의 아카이브와 공부 순서를 정리해놨다.
그리고 이걸 이 글에서 정리해서 포스팅 하려고 한다.
뭐부터 해야할지 방황(?)하는 연구자들에게 힘이 되었으면 한다.
그리고 나의 주 연구 분야는 비전이다.
따라서 이 글에서는 비전을 먼저 다룰 예정이다.
1. 기본 Task
알고리즘 / Task | 이미지 분류 (Classification) |
객체 인식 (Object Detection) |
세그멘테이션 (Segmentation) |
CNN base | ResNet | R-CNN | Mask R-CNN |
DenseNet | Fast R-CNN | U-Net | |
MobileNet v1/v2/v3 | Faster R-CNN | FCN | |
EfficientNet | EfficientDet | FastFCN | |
Noisy Student | YOLO v1-v5 | DeepLab v1-v3 | |
Meta Pseudo Labels | |||
Attention base | Transformer | Transformer | Transformer |
ViT | DETR | SETR | |
Swin Transformer | YOLOS | SegFormer | |
BEiT | ViTDet | MaskFormer | |
DeiT | DAB-DETR | CMT-DeepLab | |
MoCo v3 | DN-DETR | SAM v1-v2 | |
DINO | Co-DETR | ||
iBOT | GroupDETR | ||
MAE | RT-DETR | ||
data2vec | |||
I-JEPA | |||
Mamba base | Mamba | Mamba | Mamba |
Vision Mamba | Mamba-YOLO | Mamba-UNet | |
MambaOut | Mamba-DETR | SegMamba | |
먼저 알고리즘은 발전 순서대로 표현했다.
비전 알고리즘은 CNN -> Attention -> Mamba 순서로 메타가 변하고 있다.
물론 Mamba의 경우는 아직 미래가 보장된건 아니다.
그리고 비전의 가장 근간이 되는 3가지 Task는 다음과 같다.
이미지 분류, 객체 인식, 세그멘테이션 이렇게 3가지 이다.
그 중에서 이미지 분류는 근본 중에 근본이다.
얀 르쿤 교수님께서 가장 먼저 했던 것이 이 task이기 때문이다.
그리고 객체 인식과 세그멘테이션은 상업화의 핵심이다.
이미지 분류에 비해 조금 더 상업적으로 활용할 가치가 높은 task이다.
자동판매, 자율주행 등에 필요한 기술이 바로 이 두가지라고 보면 된다.
편식하지 말고 모든 task를 다 숙지해두길 권장한다.
실제로 서로서로 영감을 주고받는 경우가 많다.
심지어 NLP를 넘나들어 그렇기에 같은 CV끼리는 더 그렇다.
그리고 '이걸 다 읽어야해?' 라는 생각이 들 수 있다.
다 읽을 필요 없다. 이건 가이드라인에 불과하다.
가독성이 떨어지거나 도저히 안읽히는 논문은 스킵하면 된다.
다만 스킵할 때는 논문 리뷰 블로그라도 읽도록 하자.
그리고 몇편 읽다 보면 본인이 관심이 생기는 분야가 생긴다.
그럼 그 방향으로 이어서 쭉쭉 읽어 나가면 된다.
예를들어 나의 경우에는 이렇게 연구를 진행했다.
1. 분류에서 MAE까지 읽음
2. SSL 분야가 관심이 생겼고 그쪽으로만 쭉쭉 읽음
3. 추가적으로 중간 중간에 중요한 근본 논문들도 읽음 (객체 인식 등)
2. 특수 Task
VLM | Generative Model | 3D |
LLaMA v1-v3 | VAE | NeRF |
CLIP | Style Transfer | Mip-NeRF |
LLaVA | GAN | Instant-NGP |
LLaVA-1.5 | StyleGAN v1-v2 | TensorRF |
LLaVA-UHD | DDPM | DreamFusion |
DDIM | Magic3D | |
Stable Diffusion | 3D Gaussian Splatting | |
DALL-E2 | DreamGaussian | |
SDXL | ||
이 특수 Task 3가지는 특히 주목도가 높은 것들이다.
이외에도 비디오 분야, 로봇 분야, 의료 분야 등에 다양한 Task가 있다.
나는 분류쟁이라 이런 특수 Task의 전문가는 아니다.
그래도 이정도 가이드로 공부를 하다보면 본인의 방향이 생길 것이다.
VLM 같은 경우는 LLM에 비전을 붙이려는 시도이다.
그놈의 지브리 스타일 해줘잉을 구현하려면 LLM이 이미지를 봐야한다.
비전 임베딩을 이해할 수 있게 하는 Task라고 보면 된다.
대부분의 대기업 테크니컬 리포트는 아키텍처를 안알려준다.
따라서 LLaMA 논문을 보고 연구하는 것을 추천한다.
Generative Model 같은 경우는 미드저니 같은 거라고 보면 된다.
이미지에 노이즈를 더하고 빼며 '생성'하는 Task이다.
근데 이 분야는 개인적으로 컴퓨터 과학을 넘어선 상태라고 생각한다.
푸리에 트랜스폼과 열역학이 짬뽕된 굉장히 어려운 분야이다.
디퓨전 모델을 향해 나아가며 연구하는 것을 추천한다.
3D 같은 경우는 로봇과 의료 분야에 꼭 필요한 기술이다.
그래서 실제 구직활동을 할 때 생각보다 많은 자리가 있었다.
그만큼 어려운 기술이지만 상업 쪽에 큰 가능성이 보인다.
NeRF를 중심으로 연구하는 것을 추천한다.
3. 어떤 Task를 추천하는가
많고 많은 Task 중에 어떤 Task를 잡고 해야하는지 헷갈릴 것이다.
일단 기본 task를 이것 저것 읽어가며 본인의 관심을 찾길 바란다.
직업도 마찬가지 이지만 '재밌는' 것이 최고다.
본인이 생각만 해도 가슴 뛰고 재밌는 것을 찾아보자.
그 Task를 가장 추천한다.
본인이 실리를 추구하는 사람이라면 취업에 가장 유리한게 재밌을 수 있다.
본인이 홍대병이 강한 사람이라면 남들이 안하는게 재밌을 수 있다.
그러니 본인의 관심을 직접 찾아 나가길 바란다.
4. 추가 참고
저 논문들의 원문을 찾는게 생각보다 간단한 일이 아니다.
그래서 일부 논문들의 링크는 나의 깃허브에 정리되어 있으니 타고 들어가도 된다.
나의 깃허브 링크는 여기.
끝.
'이론' 카테고리의 다른 글
[풀스택 딥러닝] 2번째, 딥러닝 실험 관리 방법, Weights & Biases, W&B, wandb, 텐서보드 (1) | 2025.06.22 |
---|---|
[풀스택 딥러닝] 1번째, 딥러닝 개발 인프라와 도구, 파이토치 라이트닝, 허깅페이스, ONNX, 분산 학습 DDP, ZeRO-3, 클라우드 비용, GPU 서버 구축 비용 (0) | 2025.06.16 |
FLOPs, #param, throughput 계산, 의미, 관계 (0) | 2024.03.19 |
learning rate와 batch size 관계 (0) | 2023.11.07 |
옵티마이저(Optimizer) 설명, 의미, 고찰 - SGD? Adam? (0) | 2023.10.12 |