欧宝官方站网站

设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩

2025/10/20 15:56:15 来源:IT之家 作者:清源 责编:清源
感谢IT之家网友 的线索投递!

IT之家 10 月 20 日消息,今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。

根据介绍,此次开源的 DeepSeek-OCR 由两个部分组成:核心编码器 DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。DeepEncoder 专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比,以控制视觉 token 数量在可管理的范围内。实验显示,当文本 token 数量不超过视觉 token 的 10 倍(压缩比低于 10×)时,模型的 OCR 精度可达 97%;即便压缩比提高到 20×,准确率仍保持约 60%,展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力。DeepSeek-OCR 同时具备较高的实际应用价值。

在 OmniDocBench 测试中,DeepSeek-OCR 使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token),而使用不到 800 个视觉 token 便优于 MinerU2.0(平均每页超过 6000 个 token)。

在实际生产中,DeepSeek-OCR 可在单块 A100-40G 显卡上每天生成超过 20 万页的大语言模型 / 视觉语言模型训练数据。

IT之家附有关页面如下:

  • GitHub:

  • Hugging Face:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

欧宝官方站网站相关的文章

关键词:DeepSeekOCR

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 Win7之家 Win10之家

软媒旗下软件: 软媒欧宝官方站网站-Opel ob(中国)APP应用 魔方