
近半年来,AI 领域的变化速度令人瞠目。从模型能力的飞跃到编程范式的改变,从开源社区的爆发到 Agent 的实用化落地——这半年可能是 AI 历史上最密集的半年。本文梳理 2025 年底到 2026 年 5 月间的重要变化。
大模型:从"能用"到"好用"
Claude 4 系列:Anthropic 的密集迭代
Anthropic 在这半年里发布了 Claude 4 全系列模型,迭代速度前所未有。
Claude Opus 4.5 于 2025 年底发布,在编程和推理能力上全面超越前代。随后的 Opus 4.6 和 Opus 4.7 进一步提升了深度推理和长文本理解能力。Claude Sonnet 4.6 在速度和能力的平衡上做到了极致,成为很多开发者的日常首选。Claude Haiku 4.5 则把轻量模型的性能推到了新高度——小模型也能处理复杂任务。
特别值得关注的是 Extended Thinking(深度思考) 功能。模型在回答前可以进行长时间的"思考",展现完整的推理链。对于数学证明、代码架构设计、复杂逻辑分析等任务,这一功能让 AI 的输出质量有了质的飞跃。
OpenAI:GPT-5 与推理模型
OpenAI 在 2025 年底到 2026 年初发布了 GPT-5 以及 o3、o4-mini 等推理模型。GPT-5 在知识广度、多语言能力和指令遵循方面提升明显。o 系列模型则专注于推理链——它们会像人类一样"想清楚再说",在数学竞赛、科学推理等场景中表现出色。
不过与 Claude 的密集迭代相比,OpenAI 的发布节奏相对克制。Sora 视频生成模型虽然技术惊艳,但在实际可用性上仍有很长的路要走。
DeepSeek:中国 AI 的里程碑
如果要评选这半年最大的黑马,DeepSeek 当之无愧。
2025 年 12 月,DeepSeek 发布了 DeepSeek-V3,这是一个基于 MoE(混合专家)架构的大模型,在多个基准测试中与 GPT-4o 打得有来有回。2026 年 1 月,DeepSeek-R1 推理模型发布并开源,在全球范围内引发轰动。
DeepSeek 的意义不仅在于技术指标。它以远低于美国同行的训练成本,做出了世界级模型,并且完全开源。这打破了"顶级 AI 只能由硅谷巨头烧钱造"的叙事,也让全球开发者第一次可以自由地使用和修改一个真正的顶级模型。
Google Gemini 2.5 Pro
Google 在 2026 年 3 月发布了 Gemini 2.5 Pro,最引人注目的是 100 万 token 的上下文窗口——可以一次性处理整本《三体》三部曲。在多模态理解和长文本处理方面,Gemini 2.5 Pro 展现了独特的优势。

AI 编程:从辅助到主力
这半年最大的变化或许不在模型本身,而在于 AI 真正进入了开发工作流。
Claude Code 作为一个命令行原生的 AI 编程助手,可以直接在终端中理解项目、修改代码、运行测试、提交 PR。它不是简单的代码补全,而是一个能理解整个项目架构、能独立完成复杂任务的"AI 工程师"。
Cursor 和 Windsurf 则从 IDE 角度切入,将 AI 深度集成到编码体验中。GitHub Copilot 也不断迭代,从补全走向 Agent 模式。
关键的转变是:AI 不再是"帮你写一行代码",而是"帮你完成一个功能"。它会读你的代码库、理解上下文、创建文件、修复 bug,甚至自己去跑测试验证。
MCP 协议:AI 的"USB 接口"
Model Context Protocol(MCP) 是 Anthropic 提出的开放协议,它定义了一套标准,让 AI 模型可以安全地与外部工具和数据源交互——调用 API、查询数据库、读写文件、操作浏览器。
这半年来,MCP 生态从概念变成了现实。越来越多的服务提供 MCP Server,AI 不再是一个聊天框里的"大脑",而是有了"手和脚",能真正去干活。
开源模型:百花齐放
除了 DeepSeek,这半年开源社区同样精彩:
- Qwen 2.5 / Qwen 3(阿里):中文能力最强的开源模型之一,Qwen 3 在推理能力上大幅提升
- Llama 4(Meta):延续了 Llama 系列的传统,开源可商用
- Mistral Large(Mistral AI):欧洲团队的作品,高效且优雅
- Yi(零一万物):李开复团队的持续迭代
开源模型的整体水平已经追平甚至在某些领域超越了闭源模型。加上 DeepSeek-R1 带火的"蒸馏"技术——用小模型模仿大模型的推理链,大幅降低了部署成本——让"自己跑一个顶级模型"从梦想变成了很多人的日常。
多模态:不仅能说,还能看和听
图像生成方面,Flux、Stable Diffusion 3.5、Midjourney 持续迭代,质量已经很难与真实照片区分。
视频生成方面,OpenAI 的 Sora、快手的 Kling(可灵)、Runway 各有千秋。虽然还不能一键生成电影,但在短视频、广告素材等场景中已经开始商用。
语音交互方面,实时语音对话成了标配。Claude、ChatGPT、Gemini 都支持语音输入输出,延迟越来越低,越来越自然。
Agent:AI 开始"干活"
这半年最关键的趋势或许是 AI Agent 的实用化。
过去我们说 AI 能做什么,主要看它"能回答什么"。现在看的是它"能干成什么"。比如:
- AI 操作浏览器完成表单填写、信息采集
- AI 接管命令行完成开发、部署、运维
- AI 调用多个 API 完成跨系统的数据同步
- AI 自主规划和执行多步骤的复杂任务
Computer Use(计算机操作)能力的加入是转折点。AI 现在能看到屏幕、移动鼠标、敲键盘——像人一样操作软件。虽然还不够完美,但方向已经非常清晰。
写在最后
半年的时间,AI 从"聊得来的对话伙伴"变成了"干得了活的数字同事"。模型越来越聪明,工具越来越丰富,门槛越来越低。
如果说 2023 年是 AI 的"认知元年",2024 年是"应用元年",那么 2025-2026 年就是 AI 的"行动元年"——AI 不再只是提供建议,而是开始真正执行。
未来的半年会发生什么?没人能准确预测。但有一点是确定的:变化的速度不会慢下来。
京公网安备11010802044340号