NLP6 [논문 리뷰] RLM 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. RLMRecursive Language Models ZHANG, Alex L.; KRASKA, Tim; KHATTAB, Omar. Recursive language models. arXiv preprint arXiv:2512.24601, 2025. 논문 원문 링크 저자의 의도무제한 길이의 프롬프트를 처리할 수 있도록 해보자.[inference-time scaling 관점 개선]RLM은 프롬프트를 외부 환경처럼 취급하고 프로그램적으로 접근할 수 있게 한다.(여기서 프롬프트는 유저의 질문, RAG 결과, 스니펫, 청크 등 모든 것을 포함)LLM이 탐색하고 분해하며 재귀적으로 호출하여 프.. 2026. 3. 31. [논문 리뷰] CLIP 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. CLIPLearning transferable visual models from natural language supervision RADFORD, Alec, et al. Learning transferable visual models from natural language supervision. In: International conference on machine learning. PmLR, 2021. p. 8748-8763. 논문 원문 링크 저자의 의도고정된 카테고리를 '분류'로 학습하는 것은 일반화가 어렵다.'분류' 대신 '이미지를 서술하는 raw 텍스트에서 직접 학습'하는 것.. 2025. 12. 15. [논문 리뷰] LLaMA v1 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. LLaMA v1LLaMA: Open and Efficient Foundation Language ModelsTOUVRON, Hugo, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. 논문 원문 링크 참고로 LLaMA는 Large Language model Meta AI의 줄임말이다. 저자의 의도7B ~ 65B 크기의 foundation language 모델을 만든다.독점적이고 비공개된 데이터가 아니라 오픈 데이터로 SOTA를 달성해보자.저자들은 리서치 커뮤니.. 2025. 3. 31. [논문 리뷰] LLaVA-UHD 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. LLaVA-UHDLLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution ImagesXU, Ruyi, et al. Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images. arXiv preprint arXiv:2403.11703, 2024. 논문 원문 링크 별로 기대하지 않고 본 논문인데 내용이 매ㅐㅐㅐㅐㅐㅐㅐㅐㅐ우 흥미롭다.그리고 vision 하는 사람들의 진짜 고민인 부분을 잘 건드린 논문이라고 생각한다. 저자의 의도visual 인코딩은 large .. 2024. 6. 19. [논문 리뷰] MambaOut 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MambaOutMambaOut: Do We Really Need Mamba for Vision?YU, Weihao; WANG, Xinchao. MambaOut: Do We Really Need Mamba for Vision?. arXiv preprint arXiv:2405.07992, 2024. 논문 원문 링크 엄청난 어그로성 제목의 논문이 나왔다.(이정도면 유투바 아니냐고....)접근이 신선하고 비슷한 생각을 해본 적이 있기 때문에 읽었는데...결론이 좀 허망하게 난 경향이 있다.너무 기대하고 읽을 필요는 없겠다. 저자의 의도Mamba는 어텐션 매커니즘의 2차함수 복잡성을 해결하는데 .. 2024. 6. 11. [논문 리뷰] Vision Mamba(Vim) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Vision Mamba ZHU, Lianghui, et al. Vision mamba: Efficient visual representation learning with bidirectional state space model. arXiv preprint arXiv:2401.09417, 2024. 논문 원문 링크 저자의 의도 최근 효율적인 디자인의 state space model(SSM) Mamba가 긴 시퀸스 모델링에 큰 가능성을 보여줬다. 하지만 SSM 에게도 비전 문제는 어려운 문제다. 비주얼 데이터의 위치 민감도와 이미지 전체 맥락에 대한 이해가 필요하다. 고해상도 이미지 처리.. 2024. 4. 17. 이전 1 다음