███╗   ███╗███████╗██╗  ██╗
 ████╗ ████║██╔════╝██║  ██║
 ██╔████╔██║███████╗███████║
 ██║╚██╔╝██║╚════██║██╔══██║
 ██║ ╚═╝ ██║███████║██║  ██║
 ╚═╝     ╚═╝╚══════╝╚═╝  ╚═╝
#079 // 2026.03.18 WEDNESDAY

TL;DR

5 stories // Anthropic · OpenAI · Mistral · Moonshot · X/Twitter
// 9 COMPANY BLOG SCAN
OpenAI GPT-5.4 mini & nano — SWE-Bench Pro 54.4%,比 GPT-5 mini 快 2x,$0.75/1M tokens Mar 17
Anthropic 无 48h 官方 blog 新内容(Dispatch 在 X 发布)
Mistral AI Leanstral — 开源 Formal Proof Agent,pass@2 26.3 超 Claude Sonnet,成本 1/15 HN 747
Google DeepMind 无 48h 新内容
Meta AI 无 48h 新内容
xAI 无 48h 新内容
DeepSeek 无 48h 新内容
Nvidia 无 48h 新内容
Qwen / 阿里 无 48h 新内容
01

Anthropic Dispatch — 手机发消息,桌面跑 Claude

@felixrieseberg // 2.5M views // 11K likes // 512 replies // Mar 18
Anthropic Dispatch tweet

Anthropic 工程师宣布 Claude Cowork 新功能 Dispatch:一个持续在线的 Claude 对话跑在本地桌面——手机发指令,回来看成果,能访问本地文件、读 Slack、搜邮件。今日 X trending #2,4,061 posts。不只是功能迭代:Claude 从"对话工具"进化成"持续 agent",这一步比 Claude Code 发布更底层。

02

Claude Code Skills 方法论长文引爆开发者圈

@trq212 (Anthropic PM) // 2.6M views // 9K likes // Mar 18
Claude Code Skills tweet

Anthropic PM 发长文《Lessons from Building Claude Code: How We Use Skills》,拆解四类 Skills 架构(Utility / Professional / Domain / Workflow),附最佳实践。今日 AI 开发者圈最大爆款。Skills 正在成为 Claude Code 的"插件市场"——这篇文章将引发大量 Skills 涌现,开发者生态飞轮开始转动。

03

Moonshot AI 提出注意力残差 AttnRes

月之暗面 // X trending // Mar 18

月之暗面提出 Attention Residual 技术,声称为 Transformer 节省 25% 计算量,同等算力下效果更强。Karpathy 和 Musk 双双点赞,社区炸锅(13.2K posts)。两人同时认可的架构创新极为罕见——但"节省 25%"的实际落地效果仍待验证。

04

GPT-5.4 mini & nano

OpenAI Blog // Mar 17 // HN 217pts

史上最强小模型:mini 比 GPT-5 mini 快 2x,SWE-Bench Pro 54.4%,$0.75/1M tokens;nano 专为 subagent,$0.20/1M。OSWorld computer use 72.1%。大小模型协作已成 coding agent 标配。

05

Mistral Leanstral — 开源打败 Claude 的形式验证 Agent

Mistral Blog // Mar 18 // HN 747pts · 183 cmts

Apache 2.0,专为 Lean 4 形式化证明,6B active params(120B MoE)。pass@2 26.3 超 Claude Sonnet 23.7,成本 $36 vs $549。代码生成 + 形式验证一体,人只需说要什么。

arxiv
2603.14465
工具使用 agent 在长链路交互中的步骤级质量诊断 benchmark。与数学推理不同,工具调用失败往往不可回滚,对 step 质量的评估是 agent 可靠性的关键缺口。arxiv.org/abs/2603.14465
arxiv
2603.16867
LLM chain-of-thought 推理在端侧部署的轻量方案——解决 KV-cache 过大、verbose 推理链问题,专为移动设备蒸馏推理能力。cs.LG #1 今日
OpenClaw
benchmark
小米同学做的首个 OpenClaw 环境下大模型 benchmark,真实 agent 任务透明评测。群内分享,与行业 benchmark 工作高度相关。claw-eval.github.io
MiniMax
MiniMax 2.7 benchmark 成绩与智谱 GLM 持平,价格打五折。智谱和 MiniMax 股价同日大涨。mp.weixin.qq.com
SWE Bench
SWE-Bench 作者发推:benchmark = <request, environment, stopping criteria, scorer> 四元组;baseline scaffolding 要贴近实际使用方式。附 blogpost → ofir.io
747pts
183 cmts
形式验证 Agent,6B params 超 Claude,见第 05 条。mistral.ai
628pts
222 cmts
2013 年发布,2026 年被电压故障破解,可加载未签名代码。tomshardware.com
342pts
164 cmts
Python JIT 编译器重新提上日程。fidget-spinner.github.io
294pts
143 cmts
结构化 prompt 工程 + 规格驱动开发框架。github.com/gsd-build
217pts
见第 04 条。openai.com