멀티모달과 메타의 이미지 바인드

#### 요약 - 멀티모달 생성 AI는 텍스트, 이미지, 비디오, 오디오, 열, 깊이, 동작, 위치 등 다양한 정보를 학습한다. 뉴스, 위키피디아 등의 텍스트를 학습한 ChatGPT와 달리 다양한 감각적 정보를 학습한다. 얀 르쿤 교수(뉴욕대 데이터 사이언스)는 이러한 정보를 학습함으로써 AI가 인간의 사고와 유사해질 수 있다고 언급했다. - 이러한 멀티모달 생성 AI를 개발하는 곳은 메타이다. 메타는 비공개 정보를 제외하고 페북과 인스타를 활용해 학습을 한다고 밝혔다. 현재 메타에서 개발한 이미지 바인드는 ChatGPT의 1/3 수준의 파라미터를 가지고 있음에도 강력한 성능을 보이는 것으로 알려져 있다. #### 메모 > 얀 르쿤 교수(뉴욕대 데이터 사이언스 교수, 메타 AI 리서치 조직인 페어 리딩) > 챗 GPT는 뉴스로 배웠다. 주어진 단어를 기반으로 다음 단어를 예측하는 기계다. > 인간의 직관처럼 비언어적 경험이 중요하다. > 6가지 정보의 멀티모달 생성 AI인 이미지바인드 훈련 중 > 이미지 바인드는 텍스트, 이미지, 비디오, 오디오, 열, 깊이, 동작, 위치 > 메타는 매개변수가 챗GPT에 비해 3분의 1수준이지만, 벤치에서는 안 떨어진다. > 메타가 가지고 있는 소셜 네트워크의 정보로 개발 #### 내 생각 - 오픈AI도 이미지를 만드는데, 멀티모달에 해당하는 것일까? - 메타는 어느 정도로 강점을 가지고 성장하게 될까? 그러나 후발주자인 것처럼만 느껴지는데, 과연 성장 가능성이 얼마나 되는지 궁금한다. #### 키워드 #멀티모달 #메타 #얀르쿤 ---- ###### 출처(참고문헌) - 신기주. (2023). 2호 챗GPT: 미디어의 기회인가, 위기인가? - 에이지 오브 AI.(pp.38). 한국언론진흥재단. ###### 연결문서 - ###### 날짜 : 2024-04-05, 00:31