Transformer 학습1 Transformer 학습 안될때 오류 확인하는 방법 Transformer는 학습할 때 오래걸린다. 그리고 너무 복잡해서 열받을 때가 많다. 학습 과정을 보는 방법으로 하나를 제안하려고 한다. 보통 학습이 안되는 이유 중에 가장 빈번한 것은 gradient 때문이다. gradient vanishing, gradient exploding 두개가 제일 문제다. 이걸 확인하는 방법은 생각보다 간단하다. forward 도중에 텐서의 크기(range)를 뽑아보면 된다. print(torch.max(x) - torch.min(x)) 이게 끝이다. 예를들어 설명해주겠다. 첫번째 모델은 hugging face의 라이브러리로 만든 ViT다. 즉 군더더기 없는 코드이고, 학습도 잘된다. learning rate가 0.001인 조건에서 텐서의 크기는 4정도 된다. 즉 back.. 2023. 5. 8. 이전 1 다음