RLHF 정리 (PPO, DPO, IPO, KTO, ORPO, GRPO), 핵심 아이디어, 차이점, 수식 분석, 데이터셋 예시
LLM의 가장 기본이 되는 메서드인 RLHF.나는 비전 분야만 잘 알면 되는 줄 알았다.그런데 슬슬 VLM에 대한 이야기가 나온다.그리고 LLM을 모르면 뒤쳐지는 느낌이 든다. 아무튼 그래서 RLHF 기법에 대하여 조사해서 정리해봤다.기본적인 딥러닝 지식이 있다는 가정하에 (없어도 무방, GPT와 함께라면)최대한 쉽게 설명해보도록 하겠다. 1. LLM 최적화 기법LLM은 사전학습 이후에 다양한 방법으로 후속 최적화를 진행한다.대표적으로 `SFT`와 `RLHF` 2가지가 있다. 보통 학습 순서는 (사전학습 -> SFT -> RLHF) 순으로 진행된다.최종적으로 얻은, RLHF까지 마친 모델을 policy model 혹은 align model 이라고 한다. 1.1. SFTSupervised Fine-Tuni..
2025. 7. 20.
[풀스택 딥러닝] 1번째, 딥러닝 개발 인프라와 도구, 파이토치 라이트닝, 허깅페이스, ONNX, 분산 학습 DDP, ZeRO-3, 클라우드 비용, GPU 서버 구축 비용
개발자 직군이라면 누구나 한번쯤 들어봤을 풀스택.대 AI 시대에 들어선 지금, 마침내 딥러닝도 풀스택이란 용어가 생겼다. 나도 AI는 모델만 잘 만들면 되는줄 알았다.하지만 실제로는 AI를 위한 부수적인 툴과 개념이 수없이 많이 생겼다.그리고 기업들도 점점 `풀스택 AI 엔지니어`를 선호하기 시작했다.(데이터 사이언티스트, 리서치 엔지니어도 마찬가지로 풀풀익선이다.) 그래서 Full Stack Deep Learning 이라는 유우명한 강의를 번역 의역하고자 한다.나에게도 도움이 되고, 딥러닝 입문자, 중급자에게도 도움이 되길 바란다. 이번 내용은 `딥러닝 개발 인프라와 도구` 이다.원문과 영상의 링크는 여기. 1.딥러닝 개발먼저 프로그래밍 언어이다.딥러닝 개발에서 가장 많이 쓰이는 언어는 파이썬이다.라이..
2025. 6. 16.