반응형 Review a paper4 [LLaVA] LLaVA : Large Language and Vision Assistant LMM? Large Multi-Modal의 약자. text 뿐만 아니라 image, video, audio 등등도 동시에 이해하는 모델. ChatGPT, LLaVA와 같은 거대 언어 모델들 이어서 LMM 모델도 많이 주목 받고 있다. LLM은 인간에게 보다 높은 상호작용을 제공하고, 자유도가 높은 답변을 제공한다. LLM에서 오픈소스로 유명한 모델이 LLaVA이다. LLaVA는 'Visual Instruction Tuning'이라는 새로운 방법론을 통해 개발되었다. 기존의 언어 모델이 다양한 지시문에 따라 적절한 출력을 생성하도록 학습하는 'Instruction Tuning'을 시각 정보로 확장한 것이다. Abstract최근 GPT-4와 같은 언어 모델로 instruction data를 생성하여 LLM모.. 2025. 2. 23. [Sketch rnn] A Neural Representation of Sketch Drawings 목표 sketch-RNN 모델에 사용된 데이터 형태와 모델의 구조에 대해서 알아보려고 한다. 1. DATA 구글에서 만든 Quick draw라는 게임을 통해서 데이터가 수집이 된다. (https://quickdraw.withgoogle.com/) Quick draw는 주어진 제시어를 20초 이내로 사용자가 그림을 그리면 인공지능이 맞추는 게임이다. 수집되는 데이터에는 펜의 움직이는 방향(x축, y축의 이동거리), 펜의 상태(up, down, drag)가 시퀀스 벡터로 입력된다. 이렇게 수집된 데이터셋은 총 345개의 라벨을 가진 50,000,000개이다. 2. "A Neural Representation of Skerch Drawings" 연구의 목표 사람이 그리는 것과 비슷하게 추상적인 개념을 일반화하.. 2023. 4. 25. [Transformer] Attention is all need(2) Architecture 이전에 Seq2Seq에 대한 한계점과 해결 방안인 Attention 기법 위주로 논문을 읽어 보았다. 2023.02.12 - [Review a paper] - [Transformer] Attention is all need(1) Seq2Seq 한계점 오늘은 트랜스포머 (Transformer)에 대해서 알아보고 핵심기능은 Attention 을 더 자세히 알아보고자 한다. 1. 트랜스포머(Transformer)란? 2021년 기준으로 현대의 자연어 처리 네트워크에서 핵심이 되는 논문이다. 논문의 원제목은 Attention Is All You Need이다. Attention 기능 하나만 잘 사용해도 NLP 분야에서 좋은 성능을 얻을 수 있다. 트랜스포머는 RNN이나 CNN을 전혀 필요로 하지 않는다는 특징이 .. 2023. 2. 14. [Transformer] Attention is all need(1) Seq2Seq 한계점 트랜스포머는 2017년에 구글이 발표한 논문인 " Attention is all you need "에서 나온 모델로 기존의 seq2seq의 구조인 인코더와 디코더를 사용하면서, Attention만으로 구현한 모델이다. RNN이나 LSTM을 사용하지 않으면서 인코더 디코더 아키텍처를 활용하였는데, 성능은 RNN 보다 우수한 것을 보여주었다. 1. 딥러닝 기반의 기계 번역 발전 과정 2021년 기준으로 최신 고성능 모델들은 트랜스포머 아키텍처를 기반으로 하고 있다. - GPT : 트랜스포머의 디코더 (Decoder) 아키텍처 활용 - BERT : 트랜스포머의 인코더 (Encoder) 아키텍처 활용 Transformer 논문에서는 RNN을 사용하지 않고 오직 Attention 기반의 아키텍처를 활용하여 성능을.. 2023. 2. 12. 이전 1 다음 반응형