ViT는 트랜스포머의 일종이다.
트랜스포머의 핵심은 초거대 파라미터를 운용하는 것인데,
이를 위해 필수적인 것이 바로 pre-training이다.
ViT는 기본적으로 ImageNet-21k에서 pre-training 하고,
ImageNet-1k(2012)에서 fine-tuning한다.
(이 포스팅에서는 ImageNet-1k가 아니라 21k를 찾는 법이니 혼동하지 않길 바랍니다.)
이런건 어디서 알 수 있냐면 라이브러리 깃허브를 참고하면 된다.
https://github.com/google-research/vision_transformer
가끔... 아주 가끔... 이 pre-training을 직접 해야하는 괴랄한 상황이 생긴다.
그래서 ImageNet-21k를 다운받아야 하는 곤란한 상황이 생기는데.... 진짜 킹받는다. 천천히 따라하자.
ImageNet 오피셜 홈페이지
https://image-net.org/download-images
선수입장
회원가입
이메일은 학교메일(마지막에 ac.kr로 끝나는거) 권장한다.
별표 없는 것도 다 채워야한다.
신청버튼이 나오면 클릭하고, 메일가서 인증한다.
이제 다운가능.
여기서 ImageNet21K를 누르면 바로 1.19테라의 폭격이 시작된다.
다운로드한 파일(tar 확장자)을 ./data/imagenet21k/ 폴더에 넣는다.
./data/imagenet21k/ 폴더에서 터미널을 켠다.
아래 코드 실행. 이코드는 위 사이트 사진에서 script를 누르면 원문이 있다.
https://github.com/Alibaba-MIIL/ImageNet21K/blob/main/dataset_preprocessing/processing_script.sh
# --------------------------------------------------------
# ImageNet-21K Pretraining for The Masses
# Copyright 2021 Alibaba MIIL (c)
# Licensed under MIT License [see the LICENSE file for details]
# Written by Tal Ridnik
# --------------------------------------------------------
export ROOT=/mnt/imagenet21k_new/imagenet21k_train # target folder, adjust this path
# untarring the original tar to 21k tar's:
tar -xvf fall11_whole.tar -C $ROOT
find . -type f -print | wc -l # 21841
# extracting all tar's in parallel (!)
cd $ROOT
find . -name "*.tar" | parallel 'echo {}; ext={/}; target_folder=${ext%.*}; mkdir -p $target_folder; tar -xf {} -C $target_folder'
# counting the nubmer of classes
find ./ -mindepth 1 -type d | wc -l # 21841
# delete all tar's
cd $ROOT
rm *.tar
# Remove uncommon classes for transfer learning
BACKUP=/mnt/imagenet21k_new/imagenet21k_small_classes
mkdir -p ${BACKUP}
for c in ${ROOT}/n*; do
count=`ls $c/*.JPEG | wc -l`
if [ "$count" -gt "500" ]; then
echo "keep $c, count = $count"
else
echo "remove $c, $count"
mv $c ${BACKUP}/
fi
done
압축이 풀렸다.
이제 pre-training 하는 코드로 학습하면 된다.
손쉽게 4테라의 스토리지를 박살냈다. 뿌듯.
끝.
'논문리뷰' 카테고리의 다른 글
[논문 리뷰] MLP mixer 요약, 코드, 구현 (0) | 2023.07.15 |
---|---|
[논문 구현] ViT ImageNet 학습하는 방법 (0) | 2023.06.08 |
[논문 리뷰] CoAtNet 요약, 코드, 구현 (0) | 2023.05.24 |
[논문 리뷰] ViT Robustness 요약, 코드, 구현 (1) | 2023.05.08 |
[논문 리뷰] ViT-G/14 요약, 코드, 구현 (0) | 2023.04.10 |