近半年 AI 发展回顾：从对话到行动，大模型改变的不只是说话方式

AI芯片

近半年来，AI 领域的变化速度令人瞠目。从模型能力的飞跃到编程范式的改变，从开源社区的爆发到 Agent 的实用化落地——这半年可能是 AI 历史上最密集的半年。本文梳理 2025 年底到 2026 年 5 月间的重要变化。

大模型：从"能用"到"好用"

Claude 4 系列：Anthropic 的密集迭代

Anthropic 在这半年里发布了 Claude 4 全系列模型，迭代速度前所未有。

Claude Opus 4.5 于 2025 年底发布，在编程和推理能力上全面超越前代。随后的 Opus 4.6 和 Opus 4.7 进一步提升了深度推理和长文本理解能力。Claude Sonnet 4.6 在速度和能力的平衡上做到了极致，成为很多开发者的日常首选。Claude Haiku 4.5 则把轻量模型的性能推到了新高度——小模型也能处理复杂任务。

特别值得关注的是 Extended Thinking（深度思考） 功能。模型在回答前可以进行长时间的"思考"，展现完整的推理链。对于数学证明、代码架构设计、复杂逻辑分析等任务，这一功能让 AI 的输出质量有了质的飞跃。

OpenAI：GPT-5 与推理模型

OpenAI 在 2025 年底到 2026 年初发布了 GPT-5 以及 o3、o4-mini 等推理模型。GPT-5 在知识广度、多语言能力和指令遵循方面提升明显。o 系列模型则专注于推理链——它们会像人类一样"想清楚再说"，在数学竞赛、科学推理等场景中表现出色。

不过与 Claude 的密集迭代相比，OpenAI 的发布节奏相对克制。Sora 视频生成模型虽然技术惊艳，但在实际可用性上仍有很长的路要走。

DeepSeek：中国 AI 的里程碑

如果要评选这半年最大的黑马，DeepSeek 当之无愧。

2025 年 12 月，DeepSeek 发布了 DeepSeek-V3，这是一个基于 MoE（混合专家）架构的大模型，在多个基准测试中与 GPT-4o 打得有来有回。2026 年 1 月，DeepSeek-R1 推理模型发布并开源，在全球范围内引发轰动。

DeepSeek 的意义不仅在于技术指标。它以远低于美国同行的训练成本，做出了世界级模型，并且完全开源。这打破了"顶级 AI 只能由硅谷巨头烧钱造"的叙事，也让全球开发者第一次可以自由地使用和修改一个真正的顶级模型。

Google Gemini 2.5 Pro

Google 在 2026 年 3 月发布了 Gemini 2.5 Pro，最引人注目的是 100 万 token 的上下文窗口——可以一次性处理整本《三体》三部曲。在多模态理解和长文本处理方面，Gemini 2.5 Pro 展现了独特的优势。

神经网络

AI 编程：从辅助到主力

这半年最大的变化或许不在模型本身，而在于 AI 真正进入了开发工作流。

Claude Code 作为一个命令行原生的 AI 编程助手，可以直接在终端中理解项目、修改代码、运行测试、提交 PR。它不是简单的代码补全，而是一个能理解整个项目架构、能独立完成复杂任务的"AI 工程师"。

Cursor 和 Windsurf 则从 IDE 角度切入，将 AI 深度集成到编码体验中。GitHub Copilot 也不断迭代，从补全走向 Agent 模式。

关键的转变是：AI 不再是"帮你写一行代码"，而是"帮你完成一个功能"。它会读你的代码库、理解上下文、创建文件、修复 bug，甚至自己去跑测试验证。

MCP 协议：AI 的"USB 接口"

Model Context Protocol（MCP） 是 Anthropic 提出的开放协议，它定义了一套标准，让 AI 模型可以安全地与外部工具和数据源交互——调用 API、查询数据库、读写文件、操作浏览器。

这半年来，MCP 生态从概念变成了现实。越来越多的服务提供 MCP Server，AI 不再是一个聊天框里的"大脑"，而是有了"手和脚"，能真正去干活。

开源模型：百花齐放

除了 DeepSeek，这半年开源社区同样精彩：

Qwen 2.5 / Qwen 3（阿里）：中文能力最强的开源模型之一，Qwen 3 在推理能力上大幅提升
Llama 4（Meta）：延续了 Llama 系列的传统，开源可商用
Mistral Large（Mistral AI）：欧洲团队的作品，高效且优雅
Yi（零一万物）：李开复团队的持续迭代

开源模型的整体水平已经追平甚至在某些领域超越了闭源模型。加上 DeepSeek-R1 带火的"蒸馏"技术——用小模型模仿大模型的推理链，大幅降低了部署成本——让"自己跑一个顶级模型"从梦想变成了很多人的日常。

多模态：不仅能说，还能看和听

图像生成方面，Flux、Stable Diffusion 3.5、Midjourney 持续迭代，质量已经很难与真实照片区分。

视频生成方面，OpenAI 的 Sora、快手的 Kling（可灵）、Runway 各有千秋。虽然还不能一键生成电影，但在短视频、广告素材等场景中已经开始商用。

语音交互方面，实时语音对话成了标配。Claude、ChatGPT、Gemini 都支持语音输入输出，延迟越来越低，越来越自然。

Agent：AI 开始"干活"

这半年最关键的趋势或许是 AI Agent 的实用化。

过去我们说 AI 能做什么，主要看它"能回答什么"。现在看的是它"能干成什么"。比如：

AI 操作浏览器完成表单填写、信息采集
AI 接管命令行完成开发、部署、运维
AI 调用多个 API 完成跨系统的数据同步
AI 自主规划和执行多步骤的复杂任务

Computer Use（计算机操作）能力的加入是转折点。AI 现在能看到屏幕、移动鼠标、敲键盘——像人一样操作软件。虽然还不够完美，但方向已经非常清晰。

写在最后

半年的时间，AI 从"聊得来的对话伙伴"变成了"干得了活的数字同事"。模型越来越聪明，工具越来越丰富，门槛越来越低。

如果说 2023 年是 AI 的"认知元年"，2024 年是"应用元年"，那么 2025-2026 年就是 AI 的"行动元年"——AI 不再只是提供建议，而是开始真正执行。

未来的半年会发生什么？没人能准确预测。但有一点是确定的：变化的速度不会慢下来。