英伟达 NVLM 1.0 引领多模态 AI 变革，媲美 GPT-4o-科技今日热点

IT之家9月21日消息，科技媒体marktechpost昨日（9月20日）发布博文，报道了英伟达（Nvidia）最新发布的论文，介绍了多模态大语言模型系列NVLM1.0。

多模态大型语言模型（MLLM）

多模态大型语言模型（MLLM）所创建的AI系统，能够无缝解读文本和视觉数据等，弥合自然语言理解和视觉理解之间的差距，让机器能够连贯地处理从文本文档到图像等各种形式的输入。

多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景，改进人工智能整合和处理不同数据源的方式，帮助AI朝着更复杂的应用方向发展。

英伟达NVLM1.0

NVLM1.0系列包括NVLM-D、NVLM-X和NVLM-H三种主要架构。每个架构都结合先进的多模态推理功能与高效的文本处理功能，从而解决了以往方法的不足之处。

NVLM1.0的一个显著特点是在训练过程中加入了高质量纯文本监督微调（SFT）数据，这使得这些模型在视觉语言任务中表现出色的同时，还能保持甚至提高纯文本性能。

研究团队强调，他们的方法旨在超越GPT-4V等现有专有模型和InternVL等开放式替代模型。

NVLM1.0模型采用混合架构来平衡文本和图像处理：

NVLM-D：纯解码器模型，以统一的方式处理两种模式，因此特别擅长多模式推理任务。

NVLM-X：采用交叉注意机制，提高了处理高分辨率图像时的计算效率

NVLM-H：混合了上述两种架构的优势，在保持文本推理所需的效率的同时，实现了更详细的图像理解。

这些模型结合了高分辨率照片的动态平铺技术，在不牺牲推理能力的情况下显著提高了OCR相关任务的性能。

性能

在性能方面，NVLM1.0模型在多个基准测试中取得了令人印象深刻的成绩。

归功于在训练过程中集成了高质量的文本数据集，在MATH和GSM8K等纯文本任务中，NVLM-D1.072B模型比其纯文本骨干提高了4.3分。

在视觉问题解答和推理任务中，这些模型还表现出了强大的视觉语言性能，在VQAv2数据集上的准确率为93.6%，在AI2D上的准确率为87.4%。

在OCR相关任务中，NVLM模型的表现明显优于现有系统，在DocVQA和ChartQA数据集上的准确率分别为87.4%和81.7%，突出显示了其处理复杂视觉信息的能力。

NVLM-X和NVLM-H模型也取得了这些成绩，它们在处理高分辨率图像和多模态数据方面表现出色。

研究的主要发现之一是，NVLM模型不仅在视觉语言任务中表现出色，而且还保持或提高了纯文本性能，这是其他多模态模型难以达到的。

例如，在基于文本的推理任务（如MMLU）中，NVLM模型保持了较高的准确率，在某些情况下甚至超过了纯文本模型。

想象一下在自动驾驶汽车中的应用场景。NVLM1.0可以通过摄像头实时获取道路信息，并与车辆导航系统进行语言沟通。

它不仅能识别交通标志，还能理解复杂路况下的人类指令，例如“如果前方有施工，请寻找替代路线”。这得益于其强大的视觉-语言处理能力以及出色的文本推理能力，使得自动驾驶更加智能、安全、可靠。

小结

英伟达开发的NVLM1.0模型代表了多模态大型语言模型的重大突破，该模型通过在多模态训练中集成高质量文本数据集，并采用动态平铺和高分辨率图像平铺标记等创新架构设计，解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。

NVLM系列模型不仅在视觉语言任务方面超越了领先的专有系统，而且还保持了卓越的纯文本推理能力，让多模态人工智能系统的发展又向前迈进一大步。

	Alef 推进 Model A 飞行汽车落地：已获 3200 个订单，明年量产
	比华为苹果务实多了！学生党也能轻易买的续航性能王新机来了
	福特汽车，真落后吗？
	广汽埃安 AION RT 四款车色公布，9 月 26 日全球预售
	看病究竟中医好仍是西医好？提醒：需根据不同病症选择，一文科普
	亚运之城韧性之城绕城内快速路网全面打通地下综合管廊初步集聚成片
	林彬朱莎黄宛苏《不夜城》中三女星有的儿女成群有的却命运悲苦
	消息称东风日产 2025 款逍客 SUV 车型将于 10 月上市
	领克 06 Renew 官宣 9 月 26 日“登场”，支持魅族 Flyme Link
	Bose SoundLink Home 蓝牙扬声器开售：续航 9 小时，1799 元

头条资讯网_今日热点_娱乐才是你关心的时事