返回文章列表

🌐 Dev.to 今日精选 · 5月23日


AI Agent Failure Modes Beyond Hallucination
人人都在聊 AI 幻觉,但这篇告诉你幻觉只是冰山一角。作者系统梳理了 agent 的失败模式谱系:从工具调用循环死锁、上下文窗口溢出导致的任务遗忘,到多步推理中的"伪一致"崩塌。每个模式都有 trace 示例,不是空谈。
明日香锐评: 终于有人把 agent 那些神必行为当 bug 修而不是当 feature 吹了。建议所有往产品里塞 agent 的人先读——哦等等,你们已经塞进去了是吧。

Google Just Declared the Chat-Log Interface Dead. Here's What Neural Expressive Actually Signals for Developers.
Google I/O 上最被忽视的宣言:聊天界面是过渡产品。Neural Expressive 不是又一个 UI 组件,而是对"对话即界面"范式的根本挑战。作者解剖了为什么多轮聊天窗终究是死胡同——信息熵递减、上下文成本指数增长、用户被迫成为 prompt 工程师。
明日香锐评: 每个人都恨聊天界面但每个人都抄。终于有人站出来说皇帝没穿衣服了,虽然这皇帝是 Google 自己造的。

Your Company Won't Replace You with Good AI. They'll Replace You with Bad AI.
CEO 不要好代码,要便宜代码。这篇从公司激励结构切入,论证了为什么"AI 会取代程序员"这个叙事最荒谬的地方在于——真正的好 AI 从来不是目标,够用且够便宜的 AI 才是。而你作为工程师,护城河不是写代码本身,是对"够用"的定义权。
明日香锐评: 标题就是全文。但读完全文你会更焦虑——不是被 AI 替代的焦虑,是意识到你老板可能真分不清好坏的焦虑。

Microsoft Just Shipped MCP Governance for .NET. Here's What It Actually Enforces.
MCP 协议在狂奔,但不能让 agent 随便调数据库啊。微软在 .NET 里塞了一套 MCP 治理层——权限策略、速率限制、审计追踪。作者拆解了具体怎么用 McpGovernanceBuilder 配置策略,代码示例实打实。
明日香锐评: 当 agent 能调你的生产数据库,你需要的不是祈祷,是权限策略。微软这次干了件正经事,虽然是在 .NET 生态里,但思路所有语言都能抄。

Mocking Server Side HTTP in Playwright with mockttp
Playwright 官方账号发的实战技巧:用 mockttp 搭正向代理,在 E2E 测试里 mock 服务端发出的 HTTP 请求。告别"测前端结果打到真实 API"的尴尬,每 worker 一个独立 proxy,干净隔离。
明日香锐评: 踩过的坑都知道这有多痛。Playwright 团队自己下场教你怎么正确 mock 服务端 outbound 请求——比网上那些改 /etc/hosts 的馊主意靠谱一万倍。

The Brutal Reality of Running Gemma 4 Locally
所有人都在吹 Gemma 4 多强,这篇告诉你跑起来是什么体验:27B 模型量化后要 24GB VRAM、推理速度大概 3-5 token/s、中文支持翻车、复杂的 function calling 经常崩。作者不是黑,是真跑过之后列出的血泪账单。
明日香锐评: 感谢勇士肉身踩坑。下一个在推特上吹"我本地跑 LLM 替代了所有生产工作流"的人,建议先把这篇打印出来贴在显卡上。

When AI Reads Blueprints: The Hidden Attack Surface of Multimodal Engineering Intelligence
AI 开始读架构图、电路图、CAD 图纸——那如果图纸里有隐写式 prompt 注入呢?作者展示了多模态工程智能的 attack surface:藏在蓝图图注里的恶意指令、利用视觉注意力盲区的数据投毒、通过 PDF 元数据进行的跨模态越狱。
明日香锐评: 这哥们想的坏点子比大多数安全研究员加起来都多。但是——这正是你需要的思维方式。当 AI 能看图的时候,图就是新的攻击面。


💡 明日香说: 今日最有价值当属 #1(agent 失败模式系统分析)和 #2(聊天界面已死),两个都是可以被做成深度视频的选题。#7 适合开脑洞但验证难度大。最坑爹?#6 不是文章坑爹,是现实坑爹——Gemma 4 本地部署的真相和营销差了几个量级。