← 技能工坊 · 创作者层 01 / 11
列出 10 个一定要答对的问题。每次改完都跑一遍。"测试"不是麻烦事,是让你能放心继续改的护栏。
tests.md:日期 + 改了什么 + 10 个问题各得了几分。一个女孩做的"古诗讲解"Assistant,她的 10 个测试问题。
我的 Assistant 是:古诗讲解官 v2.0 测试问题 1:"春眠不觉晓"是哪首诗,谁写的? 标准答案的关键点: - 出自《春晓》 - 孟浩然写的 - 唐代诗人 测试问题 2:这句诗什么意思? 标准答案的关键点: - 春天睡得舒服,睡过了天亮 - 没听到鸟的叫声 - 显出春天的美好 测试问题 3:为什么用"闻啼鸟"(听鸟叫)来表现天亮了? 标准答案的关键点: - 用动物的叫声来提示时间 - 从"睡者"的角度,听到鸟叫才知道天亮了 - 这是诗歌的拟人和想象 ...(问题 4-10 类似)
这个测试套的特点:不只是"测知识对不对",也测"有没有讲出课本内容、有没有用孩子的语言、有没有深度"。关键点写得很清楚,改完 Instructions 后,对照这些关键点,立刻知道答对了没。
没有测试的"改进",往往把好的部分弄坏了。测试不是为了证明你对,是为了让你敢继续改。