AI Agent 技术周报 Vol.04｜Build 版图战，编码 Agent 五分天下

时间窗口：2026-06-01 至 2026-06-08

本期四张图覆盖过去一周 AI Agent 领域最集中的爆发节点——微软 Build 2026 把框架战推进到基础设施层，Hermes 和 Grok Build 从两侧拿下桌面和终端，Harness-1/Vortex 两篇 arXiv 论文重新定义搜索 Agent 架构和推理加速，Anthropic 则在编码 Agent 五雄并立的格局里喊出「刹车踏板」的安全警告。

图 1：封面 — Build 版图战

本周的核心词是「生产化」：框架不再只是原型工具，而是要在工厂流水线上跑通。

图 2：微软 Build 2026 + Hermes v0.16

Microsoft Agent Framework 全面 GA（2026-06-02）

微软在 Build 大会上正式宣布 Agent Framework（MAF）多项能力进入稳定版。重点变化：

Agent Harness GA：一行代码把任意聊天客户端升级为带文件记忆、任务清单、多步上下文压缩的完整生产运行时
CodeAct（alpha）：模型不再逐工具调用，改为生成一段 Python 程序，一次执行完成多步操作。实测对比：耗时缩短 52.4%，Token 用量减少 63.9%——这是本周工程层面影响最大的单项数字
Foundry Hosted Agents：会话级沙箱隔离，Scale-to-Zero，文件系统跨会话持久化；未来 30 天 GA
Multi-agent Handoff 和 GitHub Copilot SDK / Claude Agent SDK 集成同步稳定发布

devblogs.microsoft.comhttps://devblogs.microsoft.com/agent-framework/microsoft-agent-framework-at-build-2026-announce/External link

Loading content card…

Hermes Agent v0.16.0「The Surface Release」（2026-06-05）

Nous Research 推出原生桌面 App，把本地优先 Agent 的日常可用性推进一个量级：

多 Profile 系统：每个 Profile 有独立记忆、技能和工具，相当于在一台机器上运行多个专用 Agent
/background 命令：Agent 在后台并发执行多个复杂任务，本机继续工作
远程 Gateway 支持：Agent 跑在 VPS/服务器上，桌面作为干净控制界面
Qwen 3.6 + DGX Spark 集成：128GB 统一内存下运行本地前沿模型

Loading content card…

图 3：本周 arXiv 三篇精选

Harness-1：搜索 Agent 的 RL 训练（2606.02373，2026-06-01）

搜索 Agent 的常见痛点在于：模型同时要做语义决策和常规状态记录，相互干扰。Harness-1 把后者外移给环境（候选池、重要性标注、压缩去重、预算感知渲染），让 RL 只优化搜什么、丢弃什么、何时停止。结果：20B 参数模型在 8 个检索基准的均值达到 0.730，超过次强开源搜索子 Agent +11.4 个点，且在未见基准上泛化明显。

AI Agent 赋能自适应蠕虫病毒（2606.03811，2026-06-02）

这是本周最需要正视的安全论文。传统蠕虫利用预先写死的漏洞，打补丁就能阻断。但这篇论文展示了一种新型威胁：蠕虫感染机器后，直接寄生在被攻陷机器上运行开源 LLM 来推理，针对每个新目标生成个性化攻击策略——Linux、Windows、IoT 设备跨平台传播均已在网络实验环境中验证。攻击者的边际成本是零；防守方的中心化安全控制（服务拒绝、速率限制）因此结构性失效。

Vortex：可编程稀疏注意力推理加速（2606.06453，2026-06-04）

长上下文下 full attention 的推理成本是 Agent 部署的主要瓶颈之一。Vortex 提供一套 Python 嵌入式前端语言 + 页面中心张量抽象 + 与主流服务栈深度集成的后端，让 AI Agent 可以自动生成并迭代稀疏注意力算法。在 MLA 架构的 GLM-4.7-Flash 上实测吞吐量提升 4.7×，229B 参数的 MiniMax-M2.7（NVIDIA B200）上提升 1.37×。

图 4：安全警告 + 编码 Agent 五强格局

Anthropic「刹车踏板」警告（2026-06-04）

联合创始人 Jack Clark 向行业发出警告：Claude 目前已完成公司内部 80% 的编码任务，递归自我改进阶段可能逼近——模型在部署期间更新自身权重，使得发布时的安全评估失效。他把当前局面比作「行业没有刹车踏板，只有油门」。

Anthropic 同步公开了 recursive self-improvement 研究进展：在受控实验中，Claude 驱动的 Agent 在 2026 年 5 月的成功率达到 76%，独立运行数万个训练任务。

编码 Agent 市场：五雄并立

本周 xAI 推出 Grok Build 后，编码 Agent 赛道形成五方格局：

Agent	公司	分发渠道
Claude Code	Anthropic	Claude.ai / IDE
Codex	OpenAI	ChatGPT / API / AWS
GitHub Copilot	Microsoft	VS Code / GitHub
Gemini Code	Google	Gemini / Android
Grok Build	xAI	终端 CLI（Beta）

Codex 本周同步扩张边界——宣布「面向所有角色的 Codex」，覆盖产品、法务、数据和运营等非编码岗位，与 Anthropic 的 Code with Claude 企业自动化定位直接重叠。

来源列表

AI Agent 技术周报 Vol.04｜Build 版图战，编码 Agent 五分天下

图 1：封面 — Build 版图战

图 2：微软 Build 2026 + Hermes v0.16

图 3：本周 arXiv 三篇精选

图 4：安全警告 + 编码 Agent 五强格局

References

Comments