Ⅰ. Multimodal LLM(Multimodal Large Language Model) 이란? 단순한 텍스트를 넘어, 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리할 수 있는 인공지능 모델입니다. 기존 언어 모델이 단일 모달리티인 텍스트 중심이었다면, 멀티모달 LLM은 인간처럼 다양한 감각적 정보를 통합적으로 인식하고 해석할 수 있는 능력을 갖춘 것이 특징입니다. 2023년 OpenAI의 GPT-4V(ision), Google의 Gemini 시리즈 등 대표적 모델의 등장으로 멀티모달 LLM은 연구·산업계에서 중요한 패러다임으로 부상했습니다. 이들 모델은 각기 다른 데이터 유형을 통합적으로 처리하며, 단일 모달리티 모델로는 불가능했던 고차원적인 이해력과 응용 능력을 보여주고 ..