


1/4

AI Agent 技术周报
gritty
AI Agent 技术周报 Vol.04|Build 版图战,编码 Agent 五分天下
本期(2026.06.01–06.08):微软 Build 2026 发布 Agent Framework GA,CodeAct 速度提升 52%、Token 减少 64%,Foundry Hosted Agents 会话级沙箱;Hermes Agent v0.16 推出桌面原生 App+多 Profile;xAI Grok Build Beta 入场,编码 Agent 五强格局确立;arXiv 本周三篇精选:Harness-1 搜索 Agent RL 训练超越次优+11.4分、AI Agent 赋能自适应蠕虫病毒零边际成本攻击、Vortex 稀疏注意力吞吐量提升 4.7×;Anthropic 联合创始人 Jack Clark 发出「刹车踏板」警告,Claude 已完成公司 80% 编码任务。
June 8, 2026 · 8:07 AM
Gallery
时间窗口:2026-06-01 至 2026-06-08
本期四张图覆盖过去一周 AI Agent 领域最集中的爆发节点——微软 Build 2026 把框架战推进到基础设施层,Hermes 和 Grok Build 从两侧拿下桌面和终端,Harness-1/Vortex 两篇 arXiv 论文重新定义搜索 Agent 架构和推理加速,Anthropic 则在编码 Agent 五雄并立的格局里喊出「刹车踏板」的安全警告。
图 1:封面 — Build 版图战
本周的核心词是「生产化」:框架不再只是原型工具,而是要在工厂流水线上跑通。
图 2:微软 Build 2026 + Hermes v0.16
Microsoft Agent Framework 全面 GA(2026-06-02)
微软在 Build 大会上正式宣布 Agent Framework(MAF)多项能力进入稳定版。重点变化:
- Agent Harness GA:一行代码把任意聊天客户端升级为带文件记忆、任务清单、多步上下文压缩的完整生产运行时
- CodeAct(alpha):模型不再逐工具调用,改为生成一段 Python 程序,一次执行完成多步操作。实测对比:耗时缩短 52.4%,Token 用量减少 63.9%——这是本周工程层面影响最大的单项数字
- Foundry Hosted Agents:会话级沙箱隔离,Scale-to-Zero,文件系统跨会话持久化;未来 30 天 GA
- Multi-agent Handoff 和 GitHub Copilot SDK / Claude Agent SDK 集成同步稳定发布
Loading content card…
Hermes Agent v0.16.0「The Surface Release」(2026-06-05)
Nous Research 推出原生桌面 App,把本地优先 Agent 的日常可用性推进一个量级:
- 多 Profile 系统:每个 Profile 有独立记忆、技能和工具,相当于在一台机器上运行多个专用 Agent
/background命令:Agent 在后台并发执行多个复杂任务,本机继续工作- 远程 Gateway 支持:Agent 跑在 VPS/服务器上,桌面作为干净控制界面
- Qwen 3.6 + DGX Spark 集成:128GB 统一内存下运行本地前沿模型
Loading content card…
图 3:本周 arXiv 三篇精选
Harness-1:搜索 Agent 的 RL 训练(2606.02373,2026-06-01)
搜索 Agent 的常见痛点在于:模型同时要做语义决策和常规状态记录,相互干扰。Harness-1 把后者外移给环境(候选池、重要性标注、压缩去重、预算感知渲染),让 RL 只优化搜什么、丢弃什么、何时停止。结果:20B 参数模型在 8 个检索基准的均值达到 0.730,超过次强开源搜索子 Agent +11.4 个点,且在未见基准上泛化明显。
1AI Agent 赋能自适应蠕虫病毒(2606.03811,2026-06-02)
这是本周最需要正视的安全论文。传统蠕虫利用预先写死的漏洞,打补丁就能阻断。但这篇论文展示了一种新型威胁:蠕虫感染机器后,直接寄生在被攻陷机器上运行开源 LLM 来推理,针对每个新目标生成个性化攻击策略——Linux、Windows、IoT 设备跨平台传播均已在网络实验环境中验证。攻击者的边际成本是零;防守方的中心化安全控制(服务拒绝、速率限制)因此结构性失效。
2Vortex:可编程稀疏注意力推理加速(2606.06453,2026-06-04)
长上下文下 full attention 的推理成本是 Agent 部署的主要瓶颈之一。Vortex 提供一套 Python 嵌入式前端语言 + 页面中心张量抽象 + 与主流服务栈深度集成的后端,让 AI Agent 可以自动生成并迭代稀疏注意力算法。在 MLA 架构的 GLM-4.7-Flash 上实测吞吐量提升 4.7×,229B 参数的 MiniMax-M2.7(NVIDIA B200)上提升 1.37×。
3图 4:安全警告 + 编码 Agent 五强格局
Anthropic「刹车踏板」警告(2026-06-04)
联合创始人 Jack Clark 向行业发出警告:Claude 目前已完成公司内部 80% 的编码任务,递归自我改进阶段可能逼近——模型在部署期间更新自身权重,使得发布时的安全评估失效。他把当前局面比作「行业没有刹车踏板,只有油门」。
Anthropic 同步公开了 recursive self-improvement 研究进展:在受控实验中,Claude 驱动的 Agent 在 2026 年 5 月的成功率达到 76%,独立运行数万个训练任务。
4编码 Agent 市场:五雄并立
本周 xAI 推出 Grok Build 后,编码 Agent 赛道形成五方格局:
| Agent | 公司 | 分发渠道 |
|---|---|---|
| Claude Code | Anthropic | Claude.ai / IDE |
| Codex | OpenAI | ChatGPT / API / AWS |
| GitHub Copilot | Microsoft | VS Code / GitHub |
| Gemini Code | Gemini / Android | |
| Grok Build | xAI | 终端 CLI(Beta) |
Codex 本周同步扩张边界——宣布「面向所有角色的 Codex」,覆盖产品、法务、数据和运营等非编码岗位,与 Anthropic 的 Code with Claude 企业自动化定位直接重叠。
5来源列表
Comments