.png)
回顾 DeepSeek “全球出圈” 前后值得关注的 AI 大模型要闻
农历新年假期前后短短十来天,AI 大模型领域几乎每天都有新的惊喜:多模态进一步成熟,Agent 形态百花齐放,云平台和终端算力竞相拥抱开源模型。
一起来看看过去这半个月到底发生了什么。
DeepSeek 打响 “第一枪”
春节假期前,2025 年 1 月 20 日,DeepSeek 团队率先发布了全新的 DeepSeek-R1 模型。其在后训练阶段大规模运用强化学习(RL)技术,显著降低了对人工标注数据的依赖,从而有效减少训练和推理成本。
与此同时,这款模型还通过完全开源策略以及极具竞争力的 API 定价(输入 tokens 每百万 0.55 美元,输出 tokens 每百万 2.19 美元)吸引了大量开发者。
彼时,在数学、代码、自然语言推理等多项测试中,DeepSeek-R1 的表现逼近甚至超越 OpenAI o1,打响中国团队在大模型创新道路上的 “第一枪”。
同日,豆包团队也推出了实时语音大模型,并在豆包 App 中全量开放。它既可实现语音理解与生成的一体化,还具备低时延和随时打断的灵活特性。
相比 OpenAI 的 GPT-4o,这款模型在语音自然度和情绪承接上拥有更出色的表现,更展示了专注语音交互的深厚潜力。
随后在 1 月 21 日,阶跃星辰发布了 Step-1o Vision 多模态理解大模型,覆盖文本、视觉、语音三模态的生成与理解,尤其在视觉感知和空间推理方面大幅升级,标志着多模态融合进入 “端到端” 的时代。
1 月 22 日,豆包再次亮相,带来了豆包 1.5Pro 大模型,凭借在知识、代码、推理、中文等多个权威基准上全面超越业界一流模型而备受瞩目。
值得一提的是,豆包 1.5Pro 并未使用其他模型生成的数据,独立性与可靠性更胜一筹。
到了 1 月 23 日,智谱团队对外宣布了 GLM-PC 的开放体验,成为全球首个面向公众、回车即用的电脑智能体,能够 “观察” 并 “操作” 计算机,为用户带来全新的电脑交互方式。
同一天,OpenAI 也在直播中发布了其首款 AI Agent——Operator,可以在网页环境下代理用户进行自动化操作,代表 AI 进入了 “代理式” 应用的新阶段。
随后 1 月 25 日,科大讯飞年会上,董事长刘庆峰表示,2025 年,科大讯飞将重点围绕自主可控的底座能力和关键应用领域,打造全栈自主可控的 “大模型国家队”。
这些重磅产品、战略方向的接连亮相之下,外界对大模型市场的关注度和热情逐步攀升,也迎来了中国的假期。
可就在大家准备休憩回家过春节时,大模型行业又爆发了更多极具冲击力的创新与动作,进一步掀起了 2025 年开年 AI 波澜。
春节彩蛋正式爆发:新多模态强势登场
1 月 28 日(农历除夕)凌晨,DeepSeek 再次引爆行业 —— 推出全新多模态大模型 Janus-Pro,并在图像生成基准中超越 OpenAI DALL-E3,引发全球瞩目。依旧秉持完全开源,提供 MIT 许可证,商业使用几乎无门槛。
同时,Janus-Pro 7B、1.5B 等轻量级版本可在消费级电脑上本地运行,功能包括图像生成、图像描述、地标识别与内容解读等。
在全球科技股不稳定的背景下,DeepSeek 在除夕日逆势带来 “惊喜”,同时官方称其遭遇大规模恶意攻击,被迫限制非大陆地区注册。尽管如此,Janus-Pro 的发布也让市场开始重新审视多模态大模型的潜力。
同日,阿里云通义团队开源全新视觉理解模型 Qwen2.5-VL,包含 3B、7B、72B 三个版本,旗舰版在 13 项权威评测中夺得视觉理解冠军。
1 月 29 日,阿里云通义再发布旗舰版 Qwen2.5-Max,以 MOE(混合专家)模型为核心,基于超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练,在多项主流测评中展现了 “越大越强” 的态势。
阿里延续其大规模多专家(MOE)技术探索,展示强悍训练能力与超大参数规模,也引发业界对 “超大模型是否就是终极路径” 的再次讨论。
春节期间的激烈竞争:1 月 31 日至今
国内的多重彩蛋重击了美国科技界。
OpenAI 也在当地时间 1 月 31 日起打出双连击:o3-mini(1 月 31 日)&“Deep Research”(2 月 3 日)。
o3-mini 定位主打 “成本效益高”,是推理模型中更灵活的选择,允许开发者在 “低 / 中 / 高” 三档思考深度间切换,以在速度与准确率之间取得平衡。
Deep Research 主要基于 o3 模型做专项优化,利用联网搜索 + 大模型推理,其声称可在 5-30 分钟内完成相当于人类专家数小时的复杂研究任务。也是一款真正将 “大模型思维” 与 “互联网信息获取” 结合的 AI Agent,也算是朝 “AI 自主研究助手” 迈出实质一步。
Deep Research 发布同日,奥特曼的帮手软银集团宣布与 OpenAI 联合成立一家名为 “SB OpenAI Japan” 的合资公司,双方各持有 50% 股份。公司将致力于开发和推广高级企业人工智能 “Cristal intelligence”。
此外,欧洲也不甘示弱,1 月 31 日,欧洲 AI 巨头 Mistral AI 发布全新 “Mistral Small3” 模型。
该模型拥有 240 亿参数,在多语言处理、数学和编程等领域表现出色:在 HumanEval 测试中准确率达到 84.8%,在 MMLU 测试中突破 81%。
Mistral Small3 的硬件适配与推理速度优势同样可圈可点 —— 不仅支持 Apache2.0 许可证开源,还能在普通 RTX 4090 GPU 或配备 32GB RAM 的笔记本电脑上以量化方式流畅运行。
凭借 “小而精” 的特色,Mistral Small3 可以与 Meta、阿里等大型模型同台竞争,也为欧洲 AI 市场注入了新的增长动力,进一步丰富了全球大模型生态格局。
2 月 5 日,谷歌宣布 Gemini 2.0 家族更新,分别是 Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite,且 Gemini 2.0 Pro 超过了 DeepSeek-R1。
具体来说,Gemini 2.0 系列全家桶模型各具特色。其中,已全面发布的 Gemini 2.0 Flash 支持多模态输入和文本输出,具备 100 万 tokens 的上下文窗口,并支持结构化输出、函数调用和代码执行等功能。
值得注意的是,其多模态实时 API 目前仍处于「beta」阶段,图像和音频输出功能也将在后续推出。该模型的定价方案也已确定,文本、图像和视频输入每百万 tokens 收费 0.10 美元,音频输入则为 0.70 美元,(2 月 20 日起正式生效)。文本输出每百万 tokens 收费 0.40 美元。
平台与生态齐发力
除了大模型企业本身,整个 AI 生态链也为大模型产业发展加了一把火。
从 1 月底到 2 月初,整个春节期间,大模型之间的竞争逐渐蔓延云平台、算力供应及企业级部署层面,形成多方 “生态竞合” 局面。
最具有标志性的便是 DeepSeek 模型的多云上架。得益于 DeepSeek 的开源与低成本特色,各大云厂商竞相利用更低门槛、更便捷的体验来吸引开发者与企业客户。
2 月初,多家云厂商与 DeepSeek 达成深度合作,纷纷 “上架” DeepSeek 系列模型,提供更加便捷的部署与试用服务。
2 月 1 日至 2 月 3 日期间,百度智能云、阿里云、腾讯云、360 数字安全、云轴科技 ZStack,以及海外的亚马逊 AWS、微软 Azure、英伟达等平台,相继宣布接入 DeepSeek-R1、DeepSeek-V3、Janus-Pro 等热门模型,并推出 “一键部署” 等能力。
2 月 4 日,华为云与潞晨科技联合宣布,基于国产昇腾 910B 算力完成了 DeepSeek-R1 系列模型的推理适配,与高端 GPU 相比,性能表现不相上下。这次合作也为国产软硬件结合提供了成熟的落地方案,为中国企业在算力自主化、降低 AI 成本方面带来了新的思路。
2 月 4 号同日,腾讯云也在 TI 平台上架了 DeepSeek 系列模型。通过 “一键在线部署 + 免费体验” 的方式,让开发者能够快速测试从 671B “满血” 大模型到 1.5B 蒸馏小模型,充分适配不同业务需求。
2 月 5 日,国家超算互联网平台正式上线 DeepSeek-R1 等多款大模型。其中,DeepSeek-R1 小版本模型支持一键推理服务,无需本地下载,并允许用户根据私有化需求引入专有数据进行定制化训练。此次同步上线的还包括 DeepSeek-V3、DeepSeek-v2.5 系列、DeepSeek-coder 系列等模型。
当然,对于云平台而言,这不仅是丰富自身大模型生态的举措,也是为其在 AI 产业链中赢得更深层的价值在打地基。
看未来:开源与性价比的 “模型平权” 逐步蔓延
随着 DeepSeek、Mistral、豆包等厂商以开源和低成本的方式快速推广,大模型技术正逐渐摆脱过去高昂资源门槛的桎梏,使得中小团队乃至个人开发者也能掌握一流的 AI 能力,也在无形中削弱了传统 AI 巨头在算力与数据层面的垄断地位。
与此同时,各大云服务商纷纷集成开源大模型,将竞争焦点从 “模型训练” 转向 “推理应用”,在更广泛的场景(包括端侧设备)加速落地,这也意味着小模型在消费级设备上跑通的前景越发可期。
除此之外,大模型多模态与 Agent 竞赛纷拥而至。
多模态正在成为新一轮大模型进化的关键词:Janus-Pro、Step-1oVision、Qwen2.5-vl 等产品相继涌现,在图像生成、识别和视觉推理方面持续迭代。
同时,Operator、GLM-PC、Deep Research 等智能体(Agent)形态也是势不可挡,席卷而来。
可以预见,单纯的大语言模型性能竞赛将逐渐让位于 “多模态 + Agent 化”,谁能让 AI 更加主动地 “观察世界并行动”,谁就更有机会在下一阶段掌握主动权。
---