你正在 萌芽版 · 🛠️ 技能工坊 · ← 回到学院 · 萌芽版主页 · 总入口

← 技能工坊 · 创作者层 01 / 11

第 08 节 · 测试你的技能

列出 10 个一定要答对的问题。每次改完都跑一遍。"测试"不是麻烦事,是让你能放心继续改的护栏。

步骤

  1. 挑你做得最好的那个 Assistant。
  2. 列 10 个问题,每个问题写下"标准答案的关键点"。
  3. 每次改完 Instructions,把这 10 个问题逐个问一遍,看新版本还能不能答对。
  4. 记一份 tests.md:日期 + 改了什么 + 10 个问题各得了几分。
小测 · 1 分钟 为什么要有测试套?
你改了 Assistant 的 Instructions,现在回答变得更有趣了。但老朋友说"它好像回答得没那么准确了"。你应该怎么办?
  • 相信"更有趣"比"准确"更重要,保留新版本。
  • 如果有一套 10 个测试问题,立刻跑一遍,看新版本在这 10 个上得了几分。对比旧版本,决定要不要回滚。
  • 问其他 5 个朋友,看他们觉得哪个版本好。
  • 把新旧版本都保留,让用户自己选。
为什么是第二个?因为"朋友说"和"测试说"的区别 —— 朋友是定性的("好像"、"没那么"),测试是定量的("10 个里对了 8 个")。定量的数据更可靠。而且有了历史数据,你能看出"改了什么、丢了什么、赢了什么"。这才能做出聪明的决定。
动手 · 写 prompt 为你的 Assistant 设计 10 个测试问题
任务:选你现有最好的一个 Assistant。设计 10 个"一定要答对"的问题。对每个问题,写下"标准答案的 3 个关键点"。这就是你今后每次改进后都要跑一遍的测试套。
→ 打开智谱清言开始测试 已复制 ✓
看参考:一个女孩的测试套设计

一个女孩做的"古诗讲解"Assistant,她的 10 个测试问题。

我的 Assistant 是:古诗讲解官 v2.0

测试问题 1:"春眠不觉晓"是哪首诗,谁写的?
标准答案的关键点:
- 出自《春晓》
- 孟浩然写的
- 唐代诗人

测试问题 2:这句诗什么意思?
标准答案的关键点:
- 春天睡得舒服,睡过了天亮
- 没听到鸟的叫声
- 显出春天的美好

测试问题 3:为什么用"闻啼鸟"(听鸟叫)来表现天亮了?
标准答案的关键点:
- 用动物的叫声来提示时间
- 从"睡者"的角度,听到鸟叫才知道天亮了
- 这是诗歌的拟人和想象

...(问题 4-10 类似)

这个测试套的特点:不只是"测知识对不对",也测"有没有讲出课本内容、有没有用孩子的语言、有没有深度"。关键点写得很清楚,改完 Instructions 后,对照这些关键点,立刻知道答对了没。

这一节学到什么

没有测试的"改进",往往把好的部分弄坏了。测试不是为了证明你对,是为了让你敢继续改。

← 上一节下一节 →