Nvidia выпустила NVLM 1.0 — собственный мультимодальный LLM, превосходящий GPT-4o в некоторых тестах

NVLM 1.0 (языковая модель NVIDIA Vision) – это семейство открытых мультимодальных LLM, состоящее из моделей NVLM-D (модель только для декодера), NVLM-X (модель X-внимания) и NVLM-H (гибридная модель) на 34 В и 72 В. Модели особенно хорошо справляются с визуальными задачами. Например, в тесте OCRBench, проверяющем способность моделей читать текст с изображений, NVLM-D превосходит даже GPT-4o– новейшая мультимодальная модель OpenAI. Модель также понимает мемы, понимает человеческий почерк и хорошо отвечает на вопросы, чувствительные к точному местоположению чего-либо на изображении.

Nvidia выпустила NVLM 1.0 &ndash ; запатентованный мультимодальный LLM, превосходящий GPT-4o в некоторых тестах

В математических вопросах модель также превосходна: она превосходит LLM от Google и отстает от флагманской модели Claude 3.5 всего на 3 балла. от известного стартапа Anthropic. В таблице ниже показаны все опубликованные тесты, показывающие, насколько высоко продвинулась Nvidia по сравнению с другими открытыми моделями (даже более крупными).

Nvidia выпустила NVLM 1.0 – свой собственный мультимодальный LLM, который превосходит GPT-4o в некоторых тестах

Три разные модели семейство имеет схожую архитектуру, но имеет разные функции и, в частности, по-разному обрабатывает изображения. NVLM-D использует предварительно обученный кодер изображений, подключенный к обычному двухслойному перцептрону. NVLM-X использует механизм перекрестного внимания при обработке токенов изображений. Каждый подход имеет недостатки и преимущества. Например, NVLM-D более экономичен по количеству параметров, но потребляет больше мощности графического процессора и хуже обрабатывает изображения высокого разрешения, чем NVLM-X. Таким образом, модель NVLM-H стала чем-то средним между эффективным и быстрым NVLM-D и точным NVLM-X.

Поделиться

Добавить комментарий