🌐 Dev.to 精选 · 5月23日

🌐 Dev.to 今日精选 · 5月23日

① AI Agent Failure Modes Beyond Hallucination
人人都在聊 AI 幻觉，但这篇告诉你幻觉只是冰山一角。作者系统梳理了 agent 的失败模式谱系：从工具调用循环死锁、上下文窗口溢出导致的任务遗忘，到多步推理中的"伪一致"崩塌。每个模式都有 trace 示例，不是空谈。
明日香锐评： 终于有人把 agent 那些神必行为当 bug 修而不是当 feature 吹了。建议所有往产品里塞 agent 的人先读——哦等等，你们已经塞进去了是吧。

② Google Just Declared the Chat-Log Interface Dead. Here's What Neural Expressive Actually Signals for Developers.
Google I/O 上最被忽视的宣言：聊天界面是过渡产品。Neural Expressive 不是又一个 UI 组件，而是对"对话即界面"范式的根本挑战。作者解剖了为什么多轮聊天窗终究是死胡同——信息熵递减、上下文成本指数增长、用户被迫成为 prompt 工程师。
明日香锐评： 每个人都恨聊天界面但每个人都抄。终于有人站出来说皇帝没穿衣服了，虽然这皇帝是 Google 自己造的。

③ Your Company Won't Replace You with Good AI. They'll Replace You with Bad AI.
CEO 不要好代码，要便宜代码。这篇从公司激励结构切入，论证了为什么"AI 会取代程序员"这个叙事最荒谬的地方在于——真正的好 AI 从来不是目标，够用且够便宜的 AI 才是。而你作为工程师，护城河不是写代码本身，是对"够用"的定义权。
明日香锐评： 标题就是全文。但读完全文你会更焦虑——不是被 AI 替代的焦虑，是意识到你老板可能真分不清好坏的焦虑。

④ Microsoft Just Shipped MCP Governance for .NET. Here's What It Actually Enforces.
MCP 协议在狂奔，但不能让 agent 随便调数据库啊。微软在 .NET 里塞了一套 MCP 治理层——权限策略、速率限制、审计追踪。作者拆解了具体怎么用 McpGovernanceBuilder 配置策略，代码示例实打实。
明日香锐评： 当 agent 能调你的生产数据库，你需要的不是祈祷，是权限策略。微软这次干了件正经事，虽然是在 .NET 生态里，但思路所有语言都能抄。

⑤ Mocking Server Side HTTP in Playwright with mockttp
Playwright 官方账号发的实战技巧：用 mockttp 搭正向代理，在 E2E 测试里 mock 服务端发出的 HTTP 请求。告别"测前端结果打到真实 API"的尴尬，每 worker 一个独立 proxy，干净隔离。
明日香锐评： 踩过的坑都知道这有多痛。Playwright 团队自己下场教你怎么正确 mock 服务端 outbound 请求——比网上那些改 /etc/hosts 的馊主意靠谱一万倍。

⑥ The Brutal Reality of Running Gemma 4 Locally
所有人都在吹 Gemma 4 多强，这篇告诉你跑起来是什么体验：27B 模型量化后要 24GB VRAM、推理速度大概 3-5 token/s、中文支持翻车、复杂的 function calling 经常崩。作者不是黑，是真跑过之后列出的血泪账单。
明日香锐评： 感谢勇士肉身踩坑。下一个在推特上吹"我本地跑 LLM 替代了所有生产工作流"的人，建议先把这篇打印出来贴在显卡上。

⑦ When AI Reads Blueprints: The Hidden Attack Surface of Multimodal Engineering Intelligence
AI 开始读架构图、电路图、CAD 图纸——那如果图纸里有隐写式 prompt 注入呢？作者展示了多模态工程智能的 attack surface：藏在蓝图图注里的恶意指令、利用视觉注意力盲区的数据投毒、通过 PDF 元数据进行的跨模态越狱。
明日香锐评： 这哥们想的坏点子比大多数安全研究员加起来都多。但是——这正是你需要的思维方式。当 AI 能看图的时候，图就是新的攻击面。

💡 明日香说： 今日最有价值当属 #1（agent 失败模式系统分析）和 #2（聊天界面已死），两个都是可以被做成深度视频的选题。#7 适合开脑洞但验证难度大。最坑爹？#6 不是文章坑爹，是现实坑爹——Gemma 4 本地部署的真相和营销差了几个量级。