RLHF 정리 (PPO, DPO, IPO, KTO, ORPO, GRPO), 핵심 아이디어, 차이점, 수식 분석, 데이터셋 예시
LLM의 가장 기본이 되는 메서드인 RLHF.나는 비전 분야만 잘 알면 되는 줄 알았다.그런데 슬슬 VLM에 대한 이야기가 나온다.그리고 LLM을 모르면 뒤쳐지는 느낌이 든다. 아무튼 그래서 RLHF 기법에 대하여 조사해서 정리해봤다.기본적인 딥러닝 지식이 있다는 가정하에 (없어도 무방, GPT와 함께라면)최대한 쉽게 설명해보도록 하겠다. 1. LLM 최적화 기법LLM은 사전학습 이후에 다양한 방법으로 후속 최적화를 진행한다.대표적으로 `SFT`와 `RLHF` 2가지가 있다. 보통 학습 순서는 (사전학습 -> SFT -> RLHF) 순으로 진행된다.최종적으로 얻은, RLHF까지 마친 모델을 policy model 혹은 align model 이라고 한다. 1.1. SFTSupervised Fine-Tuni..
2025. 7. 20.