LLM2 LLM RLHF 기법 정리 (PPO, DPO, IPO, KTO, ORPO, GRPO), 핵심 아이디어, 차이점, 수식 분석, 데이터셋 예시 LLM의 가장 기본이 되는 메서드인 RLHF.나는 비전 분야만 잘 알면 되는 줄 알았다.그런데 슬슬 VLM에 대한 이야기가 나온다.그리고 LLM을 모르면 뒤쳐지는 느낌이 든다. 아무튼 그래서 RLHF 기법에 대하여 조사해서 정리해봤다.기본적인 딥러닝 지식이 있다는 가정하에 (없어도 무방, GPT와 함께라면)최대한 쉽게 설명해보도록 하겠다. 1. LLM 최적화 기법LLM은 사전학습 이후에 다양한 방법으로 후속 최적화를 진행한다.대표적으로 `SFT`와 `RLHF` 2가지가 있다. 보통 학습 순서는 (사전학습 -> SFT -> RLHF) 순으로 진행된다.최종적으로 얻은, RLHF까지 마친 모델을 policy model 혹은 align model 이라고 한다. 1.1. SFTSupervised Fine-Tuni.. 2025. 7. 20. [논문 리뷰] LLaMA v1 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. LLaMA v1LLaMA: Open and Efficient Foundation Language ModelsTOUVRON, Hugo, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. 논문 원문 링크 참고로 LLaMA는 Large Language model Meta AI의 줄임말이다. 저자의 의도7B ~ 65B 크기의 foundation language 모델을 만든다.독점적이고 비공개된 데이터가 아니라 오픈 데이터로 SOTA를 달성해보자.저자들은 리서치 커뮤니.. 2025. 3. 31. 이전 1 다음