본문 바로가기

Vision Mamba3

[논문 리뷰] LLaVA-UHD 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. LLaVA-UHDLLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution ImagesXU, Ruyi, et al. Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images. arXiv preprint arXiv:2403.11703, 2024. 논문 원문 링크 별로 기대하지 않고 본 논문인데 내용이 매ㅐㅐㅐㅐㅐㅐㅐㅐㅐ우 흥미롭다.그리고 vision 하는 사람들의 진짜 고민인 부분을 잘 건드린 논문이라고 생각한다. 저자의 의도visual 인코딩은 large .. 2024. 6. 19.
[논문 리뷰] MambaOut 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다.나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. MambaOutMambaOut: Do We Really Need Mamba for Vision?YU, Weihao; WANG, Xinchao. MambaOut: Do We Really Need Mamba for Vision?. arXiv preprint arXiv:2405.07992, 2024. 논문 원문 링크 엄청난 어그로성 제목의 논문이 나왔다.(이정도면 유투바 아니냐고....)접근이 신선하고 비슷한 생각을 해본 적이 있기 때문에 읽었는데...결론이 좀 허망하게 난 경향이 있다.너무 기대하고 읽을 필요는 없겠다. 저자의 의도Mamba는 어텐션 매커니즘의 2차함수 복잡성을 해결하는데 .. 2024. 6. 11.
[논문 리뷰] Vision Mamba(Vim) 요약, 코드, 구현 논문을 상세히 번역하고 한단어씩 해석해주는 포스팅은 많다. 나는 논문을 누구나 알아듣도록 쉽고 간결하게 전달하고자 한다. Vision Mamba ZHU, Lianghui, et al. Vision mamba: Efficient visual representation learning with bidirectional state space model. arXiv preprint arXiv:2401.09417, 2024. 논문 원문 링크 저자의 의도 최근 효율적인 디자인의 state space model(SSM) Mamba가 긴 시퀸스 모델링에 큰 가능성을 보여줬다. 하지만 SSM 에게도 비전 문제는 어려운 문제다. 비주얼 데이터의 위치 민감도와 이미지 전체 맥락에 대한 이해가 필요하다. 고해상도 이미지 처리.. 2024. 4. 17.