글로벌 인공지능(AI)산업의 게임 체인저, 대규모멀티모달모델(LMM)의 등장과 기술 트렌드 변화 > IT전자

글로벌 인공지능(AI)산업의 게임 체인저, 대규모멀티모달모델(LMM)의 등장과 기술 트렌드 변화

작성자

창업뉴스

0건

조회

16회

작성일 23-10-16 19:45

대규모 멀티모달 모델(LMM)이 글로벌 인공지능(AI) 산업에서 주목받고 있는 것으로 알려졌다. 최근 생성형 AI 챗GPT의 인기로 대규모 언어모델(LLM) 개발 경쟁이 본격화되고 있는 가운데, 기술 트렌드에 변화가 생겼다. 멀티모달은 텍스트, 이미지, 음성, 영상 등 다양한 데이터로 훈련되어 다양한 결과물을 낼 수 있는 모델이다. 최근 등장한 LMM은 더욱 복잡한 이미지 분석과 추론 능력을 갖추고 있다. 이에 따라 AI 업계에서는 LMM이 LLM을 대체하는 용어로 자리잡을 것으로 전망되고 있다. 오픈AI와 구글 등이 LMM 개발에 속도를 내고 있다는 점에서도 이러한 전망이 나오고 있다.

오픈AI는 최근 보고서를 통해 최신 LMM인 GPT-4V의 기능을 분석했다. V는 비전(vision)의 약자로, 이 모델의 가장 큰 특징은 텍스트와 이미지 사이의 경계가 없어진 것이다. 이전의 GPT-3, 4에서는 텍스트 프롬프트(명령어)를 사용해야 했지만, GPT-4V는 이미지로도 쉽게 상호 작용할 수 있는 기능을 갖추고 있다.

예를 들어 김밥을 만드는 과정이 무질서한 사진을 제시한 후 순서대로 정렬하라는 명령을 내리면 GPT-4V는 정확하게 숙제를 해결할 수 있다. 또한 맥주와 물병 등이 놓인 테이블 사진과 메뉴판을 함께 제시하면 식당에서 얼마를 지불해야 하는지도 계산해 준다. 엑스레이나 컴퓨터 단층 촬영(CT) 사진을 보고 골절 부위 등의 질병을 진단할 수 있으며, 다양한 표정의 얼굴 사진을 보여주면 화남, 놀람, 실망 등의 감정을 묘사할 수도 있다. 이 외에도 그래프, 도형, 표, 사진 속에 등장하는 언어까지도 인식하고 분석할 수 있다고 보고서는 소개하고 있다. GPT-4V는 20개 언어를 감지할 수 있는 능력도 갖추고 있다고 한다.

멀티모달 개념은 기존에도 존재했지만, 텍스트보다 인식과정이 복잡하고 방대하다는 점에서 차이가 있다. 이러한 대규모 멀티모달 모델의 등장은 AI 기술의 발전과 함께 기술 트렌드에 변화를 가져왔다. 앞으로 LMM이 LLM을 대체하는 용어로 자리 잡을 것으로 예상되며, 오픈AI와 구글 등이 LMM 개발에 속도를 내고 있어 이러한 전망이 더욱 높아질 가능성이 크다.