DeepSeek开源新模型:用视觉模式实现上下文压缩。
10月20日 ,DeepSeek宣布开源最新大模型DeepSeek-OCR 。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎 ,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理 。
通俗而言,这是一种视觉-文本压缩范式 ,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。
据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun 、Yukun Li共同完成 ,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR ”的GOT-OCR2.0系统。
DeepSeek-OCR的架构分为两部分。一是DeepEncoder ,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器 。这款刚开源不久的新模型,发布后就得到海外科技媒体广泛赞美 ,有网友盛赞:“这是AI的JPEG时刻。”
前特斯拉AI总监、OpenAI创始成员安德烈·卡帕西(Andrej Karpathy)在社交媒体高度评价DeepSeek的新模型,他表示,自己相当喜欢新的DeepSeek-OCR论文 ,“它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心 ,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入 。作为输入,文本标记是否浪费且糟糕。”
根据他的设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容 ,也应该先渲染成图片再输入给模型,其中理由包括:信息压缩效率更高 、像素更通用、支持双向注意力、可淘汰存在安全隐患的分词器(Tokenizer) 。
特斯拉创始人马斯克(Elon Musk)也现身评论区,并表示:“从长远来看 ,AI模型超过99%的输入和输出都将是光子,没有其他任何东西可以规模化。 ”
知名科技媒体《麻省理工科技评论》解释称,DeepEncoder是整个系统的关键所在。它的设计目标在于 ,在处理高分辨率输入图像的同时,保持较低的激活内存,并实现极高的压缩比 。为达到这一目的 ,DeepEncoder融合两种成熟的视觉模型架构:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力机制(window attention)见长,擅长处理局部细节,构成编码器的前半部分;后者则依赖密集的全局注意力机制(global attention),能够捕获整体知识信息。
《麻省理工科技评论》表示 ,除了文本识别性能,DeepSeek-OCR还具备较强的“深度解析”能力 。这得益于其训练数据中包含了图表、化学分子式 、几何图形等多样化的视觉内容。因此,模型不仅能识别标准文本 ,还能对文档中嵌入的复杂元素进行结构化解析。例如,它可以将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式 ,或解析几何图形中的线段关系。这种超越传统文本识别的能力,拓展了其在金融、科研、教育等专业领域的应用空间 。
DeepSeek介绍,实验表明 ,当文本tokens数量在视觉tokens的10倍以内(即压缩比<10×)时,模型可达到97%的OCR精度。即使在20×压缩比下,OCR精度仍保持在约60%。这为历史长上下文压缩和LLM中的记忆遗忘机制等研究领域展示可观前景 。
DeepSeek-OCR还初步验证上下文光学压缩的可行性 ,证明模型可以从少量视觉tokens中有效解码超过10倍数量的文本tokens。DeepSeek-OCR也是一个高度实用的模型,可大规模生产预训练数据,“未来,我们将进行数字-光学文本交错预训练 、大海捞针测试等进一步评估 ,继续推动这一有前景的研究方向。”
据海外科技媒体分析,研究团队表示,在基准测试中 ,DeepSeek-OCR优于多个主流模型,且使用的视觉tokens数量少得多 。此外,单张A100-40G GPU每天可生成超过20万页的训练数据 ,可为大型语言模型和视觉-语言模型的开发提供支持。
前网易副总裁、杭州研究院执行院长汪源发文表示,DeepSeek-OCR模型是一个专门能“读懂”图片里文字的AI模型。但厉害的地方不是简单“识字 ”,是采用了一种非常新颖的思路:把文字当成图片来处理和压缩 。
汪源认为 ,可以把它想象成一个超级高效的“视觉压缩器”,传统的AI模型是直接“读”文本,但 DeepSeek-OCR 是先“看 ”文本的图像 ,然后把一页文档的图片信息高度压缩成很少的视觉tokens。DeepSeek-OCR的能力强在能把一篇1000字的文章,压缩成100个视觉tokens。在十倍的压缩下,识别准确率可以达到96.5% 。
怎买股票网上开户:股票融资有哪些费用-DeepSeek R2有望8月下旬发布?内部人士:不属实
股票刚开户多少时间可以买:股票融资余额-央行25日将开展6000亿MLF操作 连续7个月加量续作
散户如何融资买股票:怎样可以买股票开户-黄金概念“牛股”西部黄金发布新动态!第二大股东拟减持不超1822万股
股票融资杠杆多少安全:炒股有哪些软件可以杠杆-9月5日龙虎榜复盘:“陈小群”9.21亿元净买入胜宏科技
散户配资股票:股票配资平台查询网-开源证券:光伏反内卷持续深化 关注贝塔修复
厦门股票有哪些:股票组合app-DeepSeek突传重磅!一图梳理AI芯片概念股
股票开户后可以买哪些股票:哪个股票app比较好-杰克逊霍尔开幕:鲍威尔讲话在即 地区联储主席忙打“预防针”?
股票融资有哪些费用:液冷服务器龙头股票排名-纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会第一次综合演练圆满结束
配先查-配先查app配资天眼官网_专业股票配资平台提示:文章来自网络,不代表本站观点。
实习记者|章宇璠记者|张一诺2024年,巴菲特连续四年《福布斯》位居美国最慷慨的25位亿...
记者辛圆新华社消息,美国海关与边境保护局当地时间11日晚宣布,联邦政府已同意对智能手机、电脑、芯片等电...
中证协对《证券公司文化建设实践评估指标》进行修订,最新发布2025年修订稿。新评估指标对推动文化建设国际交流作出贡献的证...
界面新闻记者|何柳颖界面新闻编辑|王姝...
界面新闻记者|孙艺真开年以来,证券公司持续优化分支机构布局,裁撤营业部的力度显著加大。界面新闻根据券...
界面新闻记者|张乔遇立足非洲的纸尿裤品牌乐舒适有限公司(简称:乐舒适、公司)近日向港交所递交了招股书,中...
据新华社消息,中央城市工作会议7月14日至15日在北京举行。 会议指出,我国城镇化正从快速增长期转向稳定发展期,城...
原本将于8月12日到期的中美关税“休战期”,再次展期90天。 当地时间7月28日至29日,中美经贸中方牵头人、国务...
记者辛圆3月25日,博鳌亚洲论坛旗舰报告《亚洲经济前景及一体化进程2025年度报告》(以下简称《报告》...
7月1日,沪指盘中震荡上扬,创业板指、科创50指数等疲弱,全A股成交额小幅萎缩。 行业板块涨多跌少,玻璃玻纤、化学...
2025年4月11日,奥士康(002913.SZ)公告称,公司拟在购股份方案之日起不超过12个月内,以不低于9000万元...
8月1日,港股英诺赛科午前股价突然拉升,暴涨30%。下午开盘后,英诺赛科股价继续飙升,最高涨至63.64%。之后涨幅...
3月24日,业内权威专家表示,MLF(中期借贷便利)不再有统一的中标利率,标志着MLF利率的政策属性完全退出。3月24日...
3月24日,海洋王照明科技股份有限公司(以下简称“海洋王”,002724.SZ)早盘一字跌停,此后股价拉涨,尾盘封涨停板...
记者王珍中国国际经济交流中心副理事长、国务院发展研究中心原副主任王一鸣周一在“中国发展高层论坛2025...