███╗ ███╗███████╗██╗ ██╗
████╗ ████║██╔════╝██║ ██║
██╔████╔██║███████╗███████║
██║╚██╔╝██║╚════██║██╔══██║
██║ ╚═╝ ██║███████║██║ ██║
╚═╝ ╚═╝╚══════╝╚═╝ ╚═╝
#079 // 2026.03.18 WEDNESDAY
TL;DR
5 stories // Anthropic · OpenAI · Mistral · Moonshot · X/Twitter
// 9 COMPANY BLOG SCAN
●
OpenAI
GPT-5.4 mini & nano — SWE-Bench Pro 54.4%,比 GPT-5 mini 快 2x,$0.75/1M tokens
Mar 17
●
Anthropic
无 48h 官方 blog 新内容(Dispatch 在 X 发布)
●
Mistral AI
Leanstral — 开源 Formal Proof Agent,pass@2 26.3 超 Claude Sonnet,成本 1/15
HN 747
●
Google DeepMind
无 48h 新内容
●
Meta AI
无 48h 新内容
●
xAI
无 48h 新内容
●
DeepSeek
无 48h 新内容
●
Nvidia
无 48h 新内容
●
Qwen / 阿里
无 48h 新内容
X / Twitter 精选
01
Anthropic Dispatch — 手机发消息,桌面跑 Claude
@felixrieseberg // 2.5M views // 11K likes // 512 replies // Mar 18
Anthropic 工程师宣布 Claude Cowork 新功能 Dispatch:一个持续在线的 Claude 对话跑在本地桌面——手机发指令,回来看成果,能访问本地文件、读 Slack、搜邮件。今日 X trending #2,4,061 posts。不只是功能迭代:Claude 从"对话工具"进化成"持续 agent",这一步比 Claude Code 发布更底层。
02
X trending #1 // 2,092 posts
Claude Code Skills 方法论长文引爆开发者圈
@trq212 (Anthropic PM) // 2.6M views // 9K likes // Mar 18
Anthropic PM 发长文《Lessons from Building Claude Code: How We Use Skills》,拆解四类 Skills 架构(Utility / Professional / Domain / Workflow),附最佳实践。今日 AI 开发者圈最大爆款。Skills 正在成为 Claude Code 的"插件市场"——这篇文章将引发大量 Skills 涌现,开发者生态飞轮开始转动。
03
trending // 13,200 posts // Karpathy + Musk 点赞
Moonshot AI 提出注意力残差 AttnRes
月之暗面 // X trending // Mar 18
月之暗面提出 Attention Residual 技术,声称为 Transformer 节省 25% 计算量,同等算力下效果更强。Karpathy 和 Musk 双双点赞,社区炸锅(13.2K posts)。两人同时认可的架构创新极为罕见——但"节省 25%"的实际落地效果仍待验证。
模型 & 研究
04
GPT-5.4 mini & nano
OpenAI Blog // Mar 17 // HN 217pts
史上最强小模型:mini 比 GPT-5 mini 快 2x,SWE-Bench Pro 54.4%,$0.75/1M tokens;nano 专为 subagent,$0.20/1M。OSWorld computer use 72.1%。大小模型协作已成 coding agent 标配。
05
Mistral Leanstral — 开源打败 Claude 的形式验证 Agent
Mistral Blog // Mar 18 // HN 747pts · 183 cmts
Apache 2.0,专为 Lean 4 形式化证明,6B active params(120B MoE)。pass@2 26.3 超 Claude Sonnet 23.7,成本 $36 vs $549。代码生成 + 形式验证一体,人只需说要什么。
论文 & 研究
arxiv
2603.14465
工具使用 agent 在长链路交互中的步骤级质量诊断 benchmark。与数学推理不同,工具调用失败往往不可回滚,对 step 质量的评估是 agent 可靠性的关键缺口。arxiv.org/abs/2603.14465
arxiv
2603.16867
LLM chain-of-thought 推理在端侧部署的轻量方案——解决 KV-cache 过大、verbose 推理链问题,专为移动设备蒸馏推理能力。cs.LG #1 今日
业界动态群精选
OpenClaw
benchmark
小米同学做的首个 OpenClaw 环境下大模型 benchmark,真实 agent 任务透明评测。群内分享,与行业 benchmark 工作高度相关。claw-eval.github.io
MiniMax
MiniMax 2.7 benchmark 成绩与智谱 GLM 持平,价格打五折。智谱和 MiniMax 股价同日大涨。mp.weixin.qq.com
SWE Bench
SWE-Bench 作者发推:benchmark = <request, environment, stopping criteria, scorer> 四元组;baseline scaffolding 要贴近实际使用方式。附 blogpost →
ofir.io
HN 值得关注
747pts
183 cmts
形式验证 Agent,6B params 超 Claude,见第 05 条。mistral.ai
628pts
222 cmts
2013 年发布,2026 年被电压故障破解,可加载未签名代码。tomshardware.com
342pts
164 cmts
Python JIT 编译器重新提上日程。fidget-spinner.github.io
294pts
143 cmts
结构化 prompt 工程 + 规格驱动开发框架。github.com/gsd-build