본문 바로가기

분류 전체보기105

[취준] 알고리즘, 자료구조, CS 면접 대비 질문 리스트 (for 데이터 사이언티스트) 데이터 사이언티스트.정말로 정보를 찾기가 힘든 직종이다.취업하는 과정이 험난하고 막막하다.나는 다음 세대가 더 편하게 취업을 했으면 하는 생각에 취업 준비 기록을 남긴다. 딥러닝 면접 대비를 위한 질문 리스트이다.(다른걸 더 많이 물어본다. 알고리즘, 자료구조, CS 질문은 거의 안함.)깃허브에 통합 버전이 있는데 안들어갈거 같아서 여기다 추가로 적는다. 원본은 여기.여러 사이트와 깃허브를 참고했다.그분들께 무한한 감사를 드립니다.그런 의미에서 나의 리스트도 공공재로 쓰면 된다. 다만 면접 대비에서도 언급했던 것처럼 꼭 반드시 자신의 언어로 답변을 다시 준비하도록 하자.면접 대비 글은 여기. [취준] 5번째, 데이터 사이언티스트 면접 준비데이터 사이언티스트.정말로 정보를 찾기가 힘든 직종이다.취업하는 과.. 2025. 12. 19.
낯선 AI 분야 논문 찾는 방법, (???: 이 분야 좀 내일까지 알아봐) 처음 대학원에 가거나 연구 직무를 맡으면 답답한 점이 있다.뭘 어디서부터 어떻게 찾고 뭘 어떻게 공부해야하지? 진짜 눈앞이 막막하다.선배들에게 물어보면 그 뭐 그냥 대충 논문 찾아서 읽으면 된다고 한다.그... 그러면.... 논문을 어떻게 찾는데요...? ㅎㅁㅎ? 이 글에서는 논문 탐색 로드맵을 알려주고자 한다.물론 이 방법에는 정답이 없다.내가 제시하는 방법이 마스터 알고리즘이 아닐 수 있다.하지만 나같은 경우에는 이렇게 찾는게 가장 빨랐다.그리고 답답해하는 연구자들에게 이 방법을 공유한다. 3가지만 기억하면 된다.벤치마크와 데이터셋 -> SOTA 모델 -> Citation (참 쉽죠?) (보고 있나 과거의 나?) 1. 벤치마크와 데이터셋가장 먼저 해야할 일은 데이터셋을 찾는 것이다.모든 AI 모델은 .. 2025. 12. 19.
[논문 리뷰] NGCF 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. NGCFNeural Graph Collaborative FilteringWANG, Xiang, et al. Neural graph collaborative filtering. In: Proceedings of the 42nd international ACM SIGIR conference on Research and development in Information Retrieval. 2019. p. 165-174. 논문 원문 링크 저자의 의도1. 관계 기반 임베딩 vs 속성 기반 임베딩유저 임베딩과 아이템 임베딩을 학습하는 것은 현대 추천 시스템의 핵심이다.MF 기반 알고리즘부터 딥러닝 .. 2025. 12. 18.
[논문 리뷰] DeepFM 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. DeepFM DeepFM: a factorization-machine based neural network for CTR predictionGUO, Huifeng, et al. DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247, 2017. 논문 원문 링크 저자의 의도기존의 방법론은 low-order 혹은 high-order 상호작용에 강한 편향이 존재한다. low-order와 high-order 상호작용을 모두 효과적으로 모델링할 수 있는 방법론을 제.. 2025. 12. 18.
내 목소리를 학습한 음성 AI 모델 TTS 만들기, 깃허브, 코드, XTTS v2, supertonic, VibeVoice 내 목소리를 학습한 음성 AI 모델인 TTS를 만들어봤다.요즘 TTS는 한국 모델들의 성능이 매우 좋다. (펄럭.)그런데? 영어만. 한국어는? 비공개~ ^0^~그래서 그냥 내가 한번 학습 코드를 만들어 봤다. XTTS v2는 꽤 오래된 모델이고 학습하는 코드가 널렸다.한국어를 학습시키는 깃허브가 없어서 짜집기해서 만들어 봤다. 성격이 급하신 분들을 위해 먼저 코드부터 공유.깃허브 링크는 여기. GitHub - HiMyNameIsDavidKim/xtts_training_ko: XTTS v2 training (fine-tuning) on Korean, XTTS v2 한국어 학습 (파인튜닝)XTTS v2 training (fine-tuning) on Korean, XTTS v2 한국어 학습 (파인튜닝) - H.. 2025. 12. 18.
이미지 설명 생성 AI 모델 만들기, 깃허브, 코드, CLIP, sLLM, MLP 이미지에 대한 설명을 생성하는 AI 모델을 만들어봤다. (그런데 이제, 경량화를 곁들인.)'엥? 그거 원래 CLIP으로 할 수 있는 거잖아~~~~' 라는 생각이 들 수 있다.하지만 CLIP은 분류 모델이지 생성 모델이 아니다. 성격이 급하신 분들을 위해 먼저 코드부터 공유.깃허브 링크는 여기. GitHub - HiMyNameIsDavidKim/image_captioning: image captioning with CLIP and LLMimage captioning with CLIP and LLM. Contribute to HiMyNameIsDavidKim/image_captioning development by creating an account on GitHub.github.com한글 설명은 여기. i.. 2025. 12. 17.
[논문 리뷰] CLIP 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. CLIPLearning transferable visual models from natural language supervisionRADFORD, Alec, et al. Learning transferable visual models from natural language supervision. In: International conference on machine learning. PmLR, 2021. p. 8748-8763. 논문 원문 링크 저자의 의도고정된 카테고리를 '분류'로 학습하는 것은 일반화가 어렵다.'분류' 대신 '이미지를 서술하는 raw 텍스트에서 직접 학습'하는 것을 .. 2025. 12. 15.
[논문 리뷰] GCN 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. GCNSemi-supervised classification with graph convolutional networksKIPF, Thomas N.; WELLING, Max. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 논문 원문 링크 저자의 의도그래프 구조 데이터에 대한 semi-supervised learning 방법을 제안한다. 기존 spectral graph method의 속도 문제를 localized convolution으로 개선한다. .. 2025. 8. 3.
RLHF 정리 (PPO, DPO, IPO, KTO, ORPO, GRPO), 핵심 아이디어, 차이점, 수식 분석, 데이터셋 예시 LLM의 가장 기본이 되는 메서드인 RLHF.나는 비전 분야만 잘 알면 되는 줄 알았다.그런데 슬슬 VLM에 대한 이야기가 나온다.그리고 LLM을 모르면 뒤쳐지는 느낌이 든다. 아무튼 그래서 RLHF 기법에 대하여 조사해서 정리해봤다.기본적인 딥러닝 지식이 있다는 가정하에 (없어도 무방, GPT와 함께라면)최대한 쉽게 설명해보도록 하겠다. 1. LLM 최적화 기법LLM은 사전학습 이후에 다양한 방법으로 후속 최적화를 진행한다.대표적으로 `SFT`와 `RLHF` 2가지가 있다. 보통 학습 순서는 (사전학습 -> SFT -> RLHF) 순으로 진행된다.최종적으로 얻은, RLHF까지 마친 모델을 policy model 혹은 align model 이라고 한다. 1.1. SFTSupervised Fine-Tuni.. 2025. 7. 20.
[풀스택 딥러닝] 2번째, 딥러닝 실험 관리 방법, Weights & Biases, W&B, wandb, 텐서보드 개발자 직군이라면 누구나 한번쯤 들어봤을 풀스택.대 AI 시대에 들어선 지금, 마침내 딥러닝도 풀스택이란 용어가 생겼다. 나도 AI는 모델만 잘 만들면 되는줄 알았다.하지만 실제로는 AI를 위한 부수적인 툴과 개념이 수없이 많이 생겼다.그리고 기업들도 점점 `풀스택 AI 엔지니어`를 선호하기 시작했다.(데이터 사이언티스트, 리서치 엔지니어도 마찬가지로 풀풀익선이다.) 그래서 Full Stack Deep Learning 이라는 유우명한 강의를 번역 의역하고자 한다.나에게도 도움이 되고, 딥러닝 입문자, 중급자에게도 도움이 되길 바란다. 이번 내용은 `딥러닝 실험 관리 방법` 이다.원문과 영상의 링크는 여기. 1. 실험 관리의 중요성딥러닝 모델 개발 과정은 단순히 코드 작성과 학습시키는 것을 넘어선다.특히.. 2025. 6. 22.