英伟达发布 Llama Nemotron Nano VL AI：高效精准，攻克复杂文档解析难题

2025/6/5 8:01:43 来源：IT之家作者：故渊责编：故渊

评论：

IT之家 6 月 5 日消息，科技媒体 marktechpost 昨日（6 月 4 日）发布博文，报道称英伟达（Nvidia）针对高效、精准地处理文档级理解任务，推出 Llama Nemotron Nano VL 视觉-语言模型（VLM）。

Llama Nemotron Nano VL 基于 Llama 3.1 架构，融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型，能同时处理多页文档中的视觉和文本元素，支持最长 16K 的上下文长度，覆盖图像和文本序列。

模型通过投影层和旋转位置编码实现视觉-文本对齐，优化了 token 效率，特别适合长篇多模态任务，无论是多图像输入还是复杂文本解析，它都能游刃有余。

英伟达发布 Llama Nemotron Nano VL AI：高效精准，攻克复杂文档解析难题

该模型的训练分为三个阶段：首先，利用商业图像和视频数据集进行交错式图文预训练；其次，通过多模态指令微调提升交互式提示能力；最后，重新混合纯文本指令数据以优化在标准语言模型基准上的表现。

英伟达发布 Llama Nemotron Nano VL AI：高效精准，攻克复杂文档解析难题

训练采用英伟达的 Megatron-LLM 框架和 Energon 数据加载器，依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中，该模型在 OCR、表格解析和图表推理等任务上取得领先精度，尤其在结构化数据提取（如表格和键值对）及布局相关问题解答中表现突出，媲美更大规模模型。

英伟达发布 Llama Nemotron Nano VL AI：高效精准，攻克复杂文档解析难题

部署方面，Llama Nemotron Nano VL 设计灵活，支持服务器和边缘推理场景。英伟达提供了 4-bit 量化版本（AWQ），结合 TinyChat 和 TensorRT-LLM 实现高效推理，兼容 Jetson Orin 等受限环境。

模型还支持 Modular NIM（NVIDIA 推理微服务）、ONNX 和 TensorRT 导出，此外英伟达通过预计算视觉嵌入选项，进一步降低静态图像文档处理的延迟，为企业应用提供了实用解决方案。

IT之家附上参考地址

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

欧宝官方站网站相关的文章

关键词：英伟达，AI，模型

软媒旗下网站： IT之家最会买 - 返利返现优惠券 Win7之家 Win10之家

软媒旗下软件： 软媒欧宝官方站网站-Opel ob（中国）APP应用魔方