← 项目展示 · 项目 07（定义"好"）的真实案例

📝 "什么算一首好诗"评分表

小薇 · 14 岁 · 纸 + Qwen Chat

"我写诗，但不知道自己的'好'和老师的'好'是不是一回事。我就测试了一下。"

背景 · 这个孩子是谁

小薇 14 岁，初二，天津。她喜欢写诗，有一个秘密的笔记本，里面有她 8 个月来写的 30+ 首诗。但她很困惑：有的诗，她觉得特别好，老师却说"意象不够清晰"；有的诗，她写得很仓促，老师却给了高分。小薇想：也许我对"好诗"的定义和专业的定义不一样？

动机 · 那个具体的"卡点"

某个晚上，小薇和妈妈讨论这个问题。妈妈说："你可以定义你自己的'好诗'标准，然后测试一下你对不对。" 小薇想到了一个办法：用盲评 —— 自己列 5 条"好诗"标准，然后看 10 首诗（5 真 5 AI 生成的），看自己能不能分辨，能不能找到规律。

时间 + 工具

用了什么： 纸笔（写评分表）+ Qwen Chat（生成对标诗歌用来盲评）

花了多久： 2 个周末。第 1 个周末定义 5 条标准并收集诗歌，第 2 个周末进行盲评和反思。

大人帮忙了多少： 妈妈讨论了想法，其他全自己做。她说："这个实验最有意思的地方，是我发现了自己标准的漏洞。"

步骤 · 这个孩子是怎么做的

定义 5 条"好诗"标准： 小薇写在纸上：
- ① 意象鲜活 —— 看完诗，脑子里能浮现一个画面（不是抽象概念）
- ② 有情感转折 —— 不是从头好到尾，中间要有波澜
- ③ 词汇选择精准 —— 没有"凑韵脚"的痕迹
- ④ 有灵气 —— 这个最难定义，但看到就知道
- ⑤ 整体完整 —— 不是碎片化的意象，是一个整体的意思
收集 10 首诗： 5 首来自诗歌网站（现代诗、她喜欢的风格），5 首让 Qwen 生成（要求"高中诗歌的水平"）。
盲评： 把诗歌打乱顺序，编号 1–10，对每首诗按 5 条标准评分（1–10 分），然后猜"这是真诗还是 AI 诗"。
对答案： 看自己猜对几个。
分析结果： 找规律，看自己的标准是否有问题。

测试结果表（节选）

【小薇的盲评结果】

编号 | 诗歌标题 | 意象 | 转折 | 词汇 | 灵气 | 完整 | 总分 | 她的判断 | 实际 | 对否
-----|---------|------|------|------|------|------|------|---------|------|-----
1 | 《雨》 | 8 | 7 | 9 | 8 | 8 | 8.0 | 真诗 | 真诗 | ✓
2 | 《门前》 | 6 | 4 | 5 | 7 | 5 | 5.4 | AI | 真诗 | ✗
3 | 《故乡的石头》 | 9 | 8 | 9 | 7 | 9 | 8.4 | 真诗 | AI | ✗
4 | 《窗》 | 7 | 6 | 7 | 4 | 6 | 6.0 | AI | 真诗 | ✗
5 | 《夜色》 | 8 | 8 | 8 | 9 | 8 | 8.2 | 真诗 | 真诗 | ✓
6 | 《镜子里的你》 | 5 | 3 | 4 | 2 | 4 | 3.6 | AI | AI | ✓
7 | 《春天的手》 | 9 | 7 | 8 | 6 | 9 | 7.8 | 真诗 | AI | ✗
8 | 《白天的梦》 | 6 | 5 | 6 | 3 | 5 | 5.0 | AI | 真诗 | ✗
9 | 《你的名字》 | 7 | 8 | 8 | 8 | 7 | 7.6 | 真诗 | 真诗 | ✓
10 | 《远方》 | 4 | 2 | 3 | 1 | 3 | 2.6 | AI | AI | ✓

【小薇的对答率：50%（5 对 5 错）】

【发现】
- 她判断对的诗歌，总分都是"极高"(8+) 或"极低"(3-)
- 但中间的 5–7 分的诗歌，她完全判断不准
- 最大问题：「灵气」这条标准，她自己也判断不准（正确率只有 40%）
- 她高估了"词汇精准度"的重要性，很多高分 AI 诗歌，词汇其实很平凡，
  但"整体意象"很强

样例 · 小薇的反思

【编号 3 的诗：《故乡的石头》】（小薇给 8.4 分，判断为"真诗"，实际是 AI）

小薇的反思："我错了。这首诗的意象确实很好，每一句都能看到画面。但我现在回头看，句子和句子之间没有逻辑关联。就是一堆漂亮的意象拼在一起。这不是'好诗'，是'好看的意象集合'。AI 最擅长的，就是'堆砌漂亮意象'。"

启发：我需要加一条新的标准："句子与句子之间的逻辑关联"。这个比"灵气"更可量化。

【编号 4 的诗：《窗》】（小薇给 6.0 分，判断为"AI"，实际是真诗）

小薇的反思："我给它打 4 分的'灵气'，所以判断它是 AI。但它其实是真诗，只是表现形式比较朴素。我意识到：我对'灵气'的定义太严格了，我把'复杂'和'有灵气'搞混了。有灵气的诗，可以很简单，但要有'击中人心'的那一刻。"

结果 · 真的发生了什么

小薇的盲评对答率：50%（5 对 5 错）
但更重要的是，她发现了自己标准的 3 个漏洞：
- 「灵气」太模糊，需要分解成"简洁中的深度"和"击中人心的时刻"
- 高估了"词汇精准"的权重，被 AI 的华丽词汇迷惑
- 忽视了"逻辑关联"，很多 AI 诗歌是"漂亮句子 + 漏洞逻辑"
最后，小薇把第 3 条标准改成了："词汇精准 + 句间逻辑通顺"，重新定义了"灵气"
她说："这个实验让我比读 100 首诗歌评论更了解'好诗'是什么。"

这个孩子学到什么

小薇的总结笔记："我以为我很懂什么是'好诗'，其实我只是'能感受到'，但说不清。这个 50% 对答率的失败，反而比成功更有价值。因为它告诉我，我的标准有漏洞。我发现了'灵气'和'华丽'的差别、'意象鲜活'和'意象堆砌'的差别。下一步，我想用这个新的标准，重新评价我 8 个月来写的 30 首诗。"

什么没成 · 改了几遍才好

第一版：只有 3 条标准。测试后发现 3 条不够，特别是"灵气"这个大范畴。
第二版：加到 5 条。但问题是，"灵气"仍然太抽象，导致自己判断时摇摆不定。
最后认识：小薇意识到，"灵气"不应该是一条单独的标准，而应该是"其他 4 条的综合体现"。于是她在第 3 次反思时，改成了"词汇 + 逻辑"，把"灵气"融进去。

你也想做？

这个项目用的是中阶版 · 项目 07「定义'好'」。

替换"好诗"，可以是："好看的漫画"评分表（故事、人设、画风、分镜……），"好听的歌"标准（歌词、旋律、编排），"好玩的游戏"指标，"好看的短视频"标准 —— 任何"你有主观判断，但说不清为什么"的领域。

→ 打开项目 07

← 看更多案例