详情

DeepSeek开源3BOCR模型:97%精度刷新长文本压缩极限

来源:快科技2025/10/22 8:34:1316675
导读
该模型核心由DeepEncoder与DeepSeek3B-MoE-A570M解码器构成:DeepEncoder能够在高分辨率输入条件下保持低激活状态,实现高压缩比并生成适量的视觉token;解码器则负责将这些视觉token准确转化为文本信息。
  10月21日消息,据媒体报道,DeepSeek在GitHub上开源了其最新研究成果——DeepSeek-OCR模型。
 
  据介绍,DeepSeek-OCR的参数量约为3B,是研究团队对“光学二维映射压缩”技术在长文本上下文处理中可行性的首次探索。
 
  该模型核心由DeepEncoder与DeepSeek3B-MoE-A570M解码器构成:DeepEncoder能够在高分辨率输入条件下保持低激活状态,实现高压缩比并生成适量的视觉token;解码器则负责将这些视觉token准确转化为文本信息。
 
  实验数据显示,当文本token数量控制在视觉token的10倍以内(压缩率<10 x )时,OCR识别精度可达97%;即使压缩率提升至20×,模型准确率仍能维持在60%左右。
 
  研究团队表示,这一成果为长上下文压缩技术以及大语言模型的记忆与遗忘机制研究提供了新的思路与方向。

版权与免责声明:凡本网注明“来源:兴旺宝”的所有作品,均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版 权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:兴旺宝”。违反上述声明者,本网将追究其相关法律责任。 本网转载并注明自其它来源(非兴旺宝)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

展开全部
热门评论1
马上评论