deep daiv.
← Magazine

deep daiv. magazine

deep daiv. vol. 3 <Multimodal>

멀티모달 모델이 텍스트, 이미지, 사운드를 함께 이해하는 방식과 AGI로 향하는 변화를 다룬 이슈.

Issue
vol. 3
발행
2024-12-01
제작
deep daiv. content team
deep daiv. vol. 3 <Multimodal> cover

Overview

이번 주제는 '멀티모달'입니다. 생소한 주제일 수도 있지만 이미 많은 AI 서비스에서 멀티모달 서비스를 제공하고 있고 이 글을 읽는 독자 여러분들도 한 번씩은 사용해봤을 것입니다. 멀티모달 학습은 앞으로 AI 발전을 이끌어나갈 중요한 방법론입니다. AI가 우리 세상을 듣고, 보고, 이해하기 위해서는 반드시 필요한 연구가 필요한 분야입니다. 이번 매거진에서는 다양한 관점으로 멀티모달을 다루고자 노력했습니다. 지금 변화하고 있는 AI 트렌드를 쉽게 파악할 수 있도록 국내외 기업, 학교에서 최고의 학자를 모셨습니다.

Contents

Part 1. 멀티모달에 뛰어들 준비

  1. COVER STORY: 멀티모달의 시대로 · p. 8
  2. 멀티모달 입문하기: 멀티모달이란 무엇인가? · p. 14
  3. 나도 이미 멀티모달을 쓰고 있다: 생활 속 멀티모달 모델 · p. 24
  4. INTERVIEW: Adobe · p. 38

Part 2. 멀티모달 세계에서 헤엄치기

  1. Multimodal 이론과 개요 · p. 50
  2. INTERVIEW: 연세대학교 멀티모달인텔리전스리서치 · p. 66
  3. 연구실 인터뷰: Wisconsin Madison · p. 74
  4. OPINION: VLM, 사실은 눈 뜬 장님? · p. 84
  5. Multimodal Foundation · p. 94

Part 3. 멀티모달에 빠져들기

  1. PROJECT: Multi-modal LLM을 이용한 VQA · p. 106
  2. OPINION: 잃어버린 멀티모달을 찾아서 · p. 122
  3. 멀티모달 트렌드 논문 소개 · p. 128

Related

이 매거진 다음에 볼 기록

같은 주제의 리포트와 공개 기록을 함께 묶었습니다.