DeepSeek发布新模型,号称性能与谷歌和OpenAI新产品相当

DeepSeek称,DeepSeek-V3.2模型在特定指标上与OpenAI和月之暗面的旗舰大语言模型性能相当。而V3.2-Speciale的推理能力可媲美Gemini 3.0 Pro。

中国AI开发商DeepSeek发布了两款新的大语言模型,称其可与谷歌(Google)和OpenAI的最新产品相媲美。

这家初创公司今年早些时候曾以其低成本的AI模型引起轰动,其最新发布的产品加入了中国公司挑战西方同行的发布热潮。

DeepSeek在AI论坛Hugging Face上的一篇帖子中表示,其新的大语言模型是基于9月宣布的一款实验性模型之上迭代而来,DeepSeek称该实验性模型是迈向下一代AI的关键一步。

这家初创公司表示,新模型在特定指标上与OpenAI和中国领先的AI初创公司月之暗面(Moonshot AI)的旗舰大语言模型相当。

该公司周一(12月1日)表示,DeepSeek-V3.2在多个推理基准测试中取得了与月之暗面的Kimi-k2-thinking和OpenAI的GPT-5相当的性能表现。

DeepSeek表示,该模型使用了一种“稀疏注意力”技术,可大幅削减计算开销,使其能够以更低的成本更高效地处理大量信息。

具体来说,它使用特殊工具将注意力集中在选定的文本上。

该公司在X上的一篇帖子中表示,DeepSeek-V3.2是其首个将思维直接整合到工具使用中的大语言模型。这使得该模型能够利用其在训练中所学知识之外的外部信息来解决问题

该公司还发布了一款高算力变体V3.2-Speciale,专为长思考设计,这种模式给予模型更多时间进行推理,并优先考虑准确性和分析能力而非速度。

总部位于杭州的DeepSeek表示,V3.2-Speciale的推理能力超过了OpenAI的GPT-5,与谷歌的Gemini 3.0 Pro相当。

随着全球AI主导地位的争夺日趋激烈,继DeepSeek今年取得突破后,中国科技公司一直在加紧努力开发先进的大语言模型。

上周,阿里巴巴(Alibaba)表示其旗舰AI应用千问(Qwen)的下载量达到了1,000万次,标志着一个强劲的开端。

根据AI模型网站Artificial Analysis的数据,DeepSeek、阿里巴巴和月之暗面的产品现已跻身全球顶级大语言模型之列。

(本文来自道琼斯通讯社)

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注