본문 바로가기
논문리뷰

[논문 구현] ImageNet-21k 데이터셋 pre-training 방법

by davidlds 2023. 6. 8.
반응형

ViT는 트랜스포머의 일종이다.

트랜스포머의 핵심은 초거대 파라미터를 운용하는 것인데,

이를 위해 필수적인 것이 바로 pre-training이다.

 

ViT는 기본적으로 ImageNet-21k에서 pre-training 하고,

ImageNet-1k(2012)에서 fine-tuning한다.

(이 포스팅에서는 ImageNet-1k가 아니라 21k를 찾는 법이니 혼동하지 않길 바랍니다.)

 

이런건 어디서 알 수 있냐면 라이브러리 깃허브를 참고하면 된다.

https://github.com/google-research/vision_transformer

깃허브
깃허브

 

가끔... 아주 가끔... 이 pre-training을 직접 해야하는 괴랄한 상황이 생긴다.

그래서 ImageNet-21k를 다운받아야 하는 곤란한 상황이 생기는데.... 진짜 킹받는다. 천천히 따라하자.

 

ImageNet 오피셜 홈페이지

https://image-net.org/download-images

 

ImageNet

Download ImageNet Data ImageNet does not own the copyright of the images. For researchers and educators who wish to use the images for non-commercial research and/or educational purposes, we can provide access through our site under certain conditions and

image-net.org

선수입장

 

회원가입

로그인 화면
로그인 화면

이메일은 학교메일(마지막에 ac.kr로 끝나는거) 권장한다.

별표 없는 것도 다 채워야한다.

 

신청버튼이 나오면 클릭하고, 메일가서 인증한다.

이제 다운가능.

 

이미지 다운
이미지 다운

여기서 ImageNet21K를 누르면 바로 1.19테라의 폭격이 시작된다.

 

다운로드한 파일(tar 확장자)을 ./data/imagenet21k/ 폴더에 넣는다.

./data/imagenet21k/ 폴더에서 터미널을 켠다.

 

아래 코드 실행. 이코드는 위 사이트 사진에서 script를 누르면 원문이 있다.

https://github.com/Alibaba-MIIL/ImageNet21K/blob/main/dataset_preprocessing/processing_script.sh

# --------------------------------------------------------
# ImageNet-21K Pretraining for The Masses
# Copyright 2021 Alibaba MIIL (c)
# Licensed under MIT License [see the LICENSE file for details]
# Written by Tal Ridnik
# --------------------------------------------------------

export ROOT=/mnt/imagenet21k_new/imagenet21k_train # target folder, adjust this path

# untarring the original tar to 21k tar's:
tar -xvf fall11_whole.tar -C $ROOT

find . -type f -print | wc -l # 21841

# extracting all tar's in parallel (!)
cd $ROOT
find . -name "*.tar" | parallel 'echo {};  ext={/}; target_folder=${ext%.*}; mkdir -p $target_folder;  tar  -xf {} -C $target_folder'

# counting the nubmer of classes
find ./ -mindepth 1 -type d | wc -l # 21841

# delete all tar's
cd $ROOT
rm *.tar

# Remove uncommon classes for transfer learning
BACKUP=/mnt/imagenet21k_new/imagenet21k_small_classes
mkdir -p ${BACKUP}
for c in ${ROOT}/n*; do
    count=`ls $c/*.JPEG | wc -l`
    if [ "$count" -gt "500" ]; then
        echo "keep $c, count = $count"
    else
        echo "remove $c, $count"
        mv $c ${BACKUP}/
    fi
done

압축이 풀렸다.

 

이제 pre-training 하는 코드로 학습하면 된다.

손쉽게 4테라의 스토리지를 박살냈다. 뿌듯.

 

끝.

반응형