본문 바로가기
반응형

논문리뷰2

[LLaVA] LLaVA : Large Language and Vision Assistant LMM? Large Multi-Modal의 약자. text 뿐만 아니라 image, video, audio 등등도 동시에 이해하는 모델. ChatGPT, LLaVA와 같은 거대 언어 모델들 이어서 LMM 모델도 많이 주목 받고 있다. LLM은 인간에게 보다 높은 상호작용을 제공하고, 자유도가 높은 답변을 제공한다. LLM에서 오픈소스로 유명한 모델이 LLaVA이다. LLaVA는 'Visual Instruction Tuning'이라는 새로운 방법론을 통해 개발되었다. 기존의 언어 모델이 다양한 지시문에 따라 적절한 출력을 생성하도록 학습하는 'Instruction Tuning'을 시각 정보로 확장한 것이다. Abstract최근 GPT-4와 같은 언어 모델로 instruction data를 생성하여 LLM모.. 2025. 2. 23.
[Transformer] Attention is all need(1) Seq2Seq 한계점 트랜스포머는 2017년에 구글이 발표한 논문인 " Attention is all you need "에서 나온 모델로 기존의 seq2seq의 구조인 인코더와 디코더를 사용하면서, Attention만으로 구현한 모델이다. RNN이나 LSTM을 사용하지 않으면서 인코더 디코더 아키텍처를 활용하였는데, 성능은 RNN 보다 우수한 것을 보여주었다. 1. 딥러닝 기반의 기계 번역 발전 과정 2021년 기준으로 최신 고성능 모델들은 트랜스포머 아키텍처를 기반으로 하고 있다. - GPT : 트랜스포머의 디코더 (Decoder) 아키텍처 활용 - BERT : 트랜스포머의 인코더 (Encoder) 아키텍처 활용 Transformer 논문에서는 RNN을 사용하지 않고 오직 Attention 기반의 아키텍처를 활용하여 성능을.. 2023. 2. 12.
반응형