← 技能工坊 · 创作者层 01 / 11

第 08 节 · 测试你的技能

列出 10 个一定要答对的问题。每次改完都跑一遍。"测试"不是麻烦事，是让你能放心继续改的护栏。

步骤

挑你做得最好的那个 Assistant。
列 10 个问题，每个问题写下"标准答案的关键点"。
每次改完 Instructions，把这 10 个问题逐个问一遍，看新版本还能不能答对。
记一份 tests.md：日期 + 改了什么 + 10 个问题各得了几分。

小测 · 1 分钟为什么要有测试套？

你改了 Assistant 的 Instructions，现在回答变得更有趣了。但老朋友说"它好像回答得没那么准确了"。你应该怎么办？

相信"更有趣"比"准确"更重要，保留新版本。
如果有一套 10 个测试问题，立刻跑一遍，看新版本在这 10 个上得了几分。对比旧版本，决定要不要回滚。
问其他 5 个朋友，看他们觉得哪个版本好。
把新旧版本都保留，让用户自己选。

为什么是第二个？因为"朋友说"和"测试说"的区别 —— 朋友是定性的（"好像"、"没那么"），测试是定量的（"10 个里对了 8 个"）。定量的数据更可靠。而且有了历史数据，你能看出"改了什么、丢了什么、赢了什么"。这才能做出聪明的决定。

动手 · 写 prompt 为你的 Assistant 设计 10 个测试问题

任务：选你现有最好的一个 Assistant。设计 10 个"一定要答对"的问题。对每个问题，写下"标准答案的 3 个关键点"。这就是你今后每次改进后都要跑一遍的测试套。

→ 打开智谱清言开始测试已复制 ✓

看参考：一个女孩的测试套设计

一个女孩做的"古诗讲解"Assistant，她的 10 个测试问题。

我的 Assistant 是：古诗讲解官 v2.0

测试问题 1："春眠不觉晓"是哪首诗，谁写的？
标准答案的关键点：
- 出自《春晓》
- 孟浩然写的
- 唐代诗人

测试问题 2：这句诗什么意思？
标准答案的关键点：
- 春天睡得舒服，睡过了天亮
- 没听到鸟的叫声
- 显出春天的美好

测试问题 3：为什么用"闻啼鸟"（听鸟叫）来表现天亮了？
标准答案的关键点：
- 用动物的叫声来提示时间
- 从"睡者"的角度，听到鸟叫才知道天亮了
- 这是诗歌的拟人和想象

...（问题 4-10 类似）

这个测试套的特点：不只是"测知识对不对"，也测"有没有讲出课本内容、有没有用孩子的语言、有没有深度"。关键点写得很清楚，改完 Instructions 后，对照这些关键点，立刻知道答对了没。

这一节学到什么

没有测试的"改进"，往往把好的部分弄坏了。测试不是为了证明你对，是为了让你敢继续改。