반응형 LLaVA1 [LLaVA] LLaVA : Large Language and Vision Assistant LMM? Large Multi-Modal의 약자. text 뿐만 아니라 image, video, audio 등등도 동시에 이해하는 모델. ChatGPT, LLaVA와 같은 거대 언어 모델들 이어서 LMM 모델도 많이 주목 받고 있다. LLM은 인간에게 보다 높은 상호작용을 제공하고, 자유도가 높은 답변을 제공한다. LLM에서 오픈소스로 유명한 모델이 LLaVA이다. LLaVA는 'Visual Instruction Tuning'이라는 새로운 방법론을 통해 개발되었다. 기존의 언어 모델이 다양한 지시문에 따라 적절한 출력을 생성하도록 학습하는 'Instruction Tuning'을 시각 정보로 확장한 것이다. Abstract최근 GPT-4와 같은 언어 모델로 instruction data를 생성하여 LLM모.. 2025. 2. 23. 이전 1 다음 반응형