发布时间:2026-03-18 来源:不经之语网作者:Rengar丶
一、重磅工具:视觉语言开源模型DeepSeek-OCR发布,浓缩的不是精华是算力
新闻: DeepSeek发布视觉语言开源模型DeepSeek-OCR,参数亿,致力于实现对图像和PDF文档的稳健理解。该模型采用类MIT许可证(MIT-style license),已经上线HuggingFace。DeepSeek同时还公布了相关代码及技术论文《DeepSeek-OCR:上下文光学压缩》(DeepSeek-OCR:Contexts Optical Compression)。
DeepSeek-OCR的独到之处在于,这款视觉语言模型极大提升了图像压缩极限,同时仍能保持高质量的OCR识别结果。实验表明,当文本token数量不超过视觉token数量倍时(即压缩比低倍),模型对OCR文档的解码准确率可%……这让大语言模型(LLM)在历史长上下文压缩、记忆遗忘机制等研究领域展现出可观的潜力。
![]()
DeepSeek-OCR不仅是一款高效的SOTA OCR模型,还通过使用基于视觉的文本压缩技术,为长上下文管理提供了新思路。人们借此可以用更少的token数量(仅为直接阅读文本的十分之一)理解图像中的文本。
锐评: 10倍压缩率%的准确率,这“浓缩”技术有点东西。
二、AI技术与产品发布:新品“下饺子”,大厂卷到爆
1. 新闻: OpenAI推出ChatGPT Atlas,这是一款适用于macOS的桌面AI浏览器,它集网页浏览、ChatGPT功能以及可选的“浏览器记忆”功能于一身。OpenAI将ChatGPT Atlas宣传为“内置ChatGPT的浏览器”,提供与ChatGPT账户绑定的第一方浏览器体验。部分评测者认为其好于AI浏览器竞品Perplexity Comet,但也有评论指出这款工具虽有潜力,但尚未成为一款可靠的AI工具。