반응형

LLM 2

제로샷(Zero-shot), 퓨샷(Few-shot), 파인튜닝(Fine-tuning)에 대해 알아보겠습니다.

Ⅰ. 제로샷(Zero-shot), 퓨샷(Few-shot), 파인튜닝(Fine-tuning) 배경 예전의 AI 모델은 특정 일을 잘하려면 그 일에 맞는 정답 데이터(라벨)를 대량으로 준비해서 다시 학습시키는 방식이 일반적이었습니다. 예를 들어 스팸 메일 분류기를 만들려면, 스팸/정상 메일을 사람이 직접 구분해 라벨링한 큰 데이터셋이 사실상 필수였습니다다. 그런데 GPT-3 같은 거대 사전학습 모델(Foundation Model)이 등장하면서 접근이 바뀌었습니다. 이 모델들은 이미 방대한 텍스트를 미리 학습해 언어에 대한 기본 이해와 일반 지식을 갖춘 상태이기 때문에, 매번 새 작업을 위해 “처음부터 학습”하지 않아도 됩니다. 결과적으로 “설명만 주고 바로 시키기(Zero-shot)”, “예시를 몇 개 보여..

Multimodal LLM(Multimodal Large Language Model) 에 대해 알아보겠습니다.

Ⅰ. Multimodal LLM(Multimodal Large Language Model) 이란? 단순한 텍스트를 넘어, 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리할 수 있는 인공지능 모델입니다. 기존 언어 모델이 단일 모달리티인 텍스트 중심이었다면, 멀티모달 LLM은 인간처럼 다양한 감각적 정보를 통합적으로 인식하고 해석할 수 있는 능력을 갖춘 것이 특징입니다. 2023년 OpenAI의 GPT-4V(ision), Google의 Gemini 시리즈 등 대표적 모델의 등장으로 멀티모달 LLM은 연구·산업계에서 중요한 패러다임으로 부상했습니다. 이들 모델은 각기 다른 데이터 유형을 통합적으로 처리하며, 단일 모달리티 모델로는 불가능했던 고차원적인 이해력과 응용 능력을 보여주고 ..

반응형