← 项目展示 · 项目 07(定义"好")的真实案例
📝 "什么算一首好诗"评分表
小薇 · 14 岁 · 纸 + Qwen Chat
"我写诗,但不知道自己的'好'和老师的'好'是不是一回事。我就测试了一下。"
背景 · 这个孩子是谁
小薇 14 岁,初二,天津。她喜欢写诗,有一个秘密的笔记本,里面有她 8 个月来写的 30+ 首诗。但她很困惑:有的诗,她觉得特别好,老师却说"意象不够清晰";有的诗,她写得很仓促,老师却给了高分。小薇想:也许我对"好诗"的定义和专业的定义不一样?
动机 · 那个具体的"卡点"
某个晚上,小薇和妈妈讨论这个问题。妈妈说:"你可以定义你自己的'好诗'标准,然后测试一下你对不对。" 小薇想到了一个办法:用盲评 —— 自己列 5 条"好诗"标准,然后看 10 首诗(5 真 5 AI 生成的),看自己能不能分辨,能不能找到规律。
时间 + 工具
用了什么: 纸笔(写评分表)+ Qwen Chat(生成对标诗歌用来盲评)
花了多久: 2 个周末。第 1 个周末定义 5 条标准并收集诗歌,第 2 个周末进行盲评和反思。
大人帮忙了多少: 妈妈讨论了想法,其他全自己做。她说:"这个实验最有意思的地方,是我发现了自己标准的漏洞。"
步骤 · 这个孩子是怎么做的
- 定义 5 条"好诗"标准: 小薇写在纸上:
- ① 意象鲜活 —— 看完诗,脑子里能浮现一个画面(不是抽象概念)
- ② 有情感转折 —— 不是从头好到尾,中间要有波澜
- ③ 词汇选择精准 —— 没有"凑韵脚"的痕迹
- ④ 有灵气 —— 这个最难定义,但看到就知道
- ⑤ 整体完整 —— 不是碎片化的意象,是一个整体的意思
- 收集 10 首诗: 5 首来自诗歌网站(现代诗、她喜欢的风格),5 首让 Qwen 生成(要求"高中诗歌的水平")。
- 盲评: 把诗歌打乱顺序,编号 1–10,对每首诗按 5 条标准评分(1–10 分),然后猜"这是真诗还是 AI 诗"。
- 对答案: 看自己猜对几个。
- 分析结果: 找规律,看自己的标准是否有问题。
测试结果表(节选)
【小薇的盲评结果】 编号 | 诗歌标题 | 意象 | 转折 | 词汇 | 灵气 | 完整 | 总分 | 她的判断 | 实际 | 对否 -----|---------|------|------|------|------|------|------|---------|------|----- 1 | 《雨》 | 8 | 7 | 9 | 8 | 8 | 8.0 | 真诗 | 真诗 | ✓ 2 | 《门前》 | 6 | 4 | 5 | 7 | 5 | 5.4 | AI | 真诗 | ✗ 3 | 《故乡的石头》 | 9 | 8 | 9 | 7 | 9 | 8.4 | 真诗 | AI | ✗ 4 | 《窗》 | 7 | 6 | 7 | 4 | 6 | 6.0 | AI | 真诗 | ✗ 5 | 《夜色》 | 8 | 8 | 8 | 9 | 8 | 8.2 | 真诗 | 真诗 | ✓ 6 | 《镜子里的你》 | 5 | 3 | 4 | 2 | 4 | 3.6 | AI | AI | ✓ 7 | 《春天的手》 | 9 | 7 | 8 | 6 | 9 | 7.8 | 真诗 | AI | ✗ 8 | 《白天的梦》 | 6 | 5 | 6 | 3 | 5 | 5.0 | AI | 真诗 | ✗ 9 | 《你的名字》 | 7 | 8 | 8 | 8 | 7 | 7.6 | 真诗 | 真诗 | ✓ 10 | 《远方》 | 4 | 2 | 3 | 1 | 3 | 2.6 | AI | AI | ✓ 【小薇的对答率:50%(5 对 5 错)】 【发现】 - 她判断对的诗歌,总分都是"极高"(8+) 或"极低"(3-) - 但中间的 5–7 分的诗歌,她完全判断不准 - 最大问题:「灵气」这条标准,她自己也判断不准(正确率只有 40%) - 她高估了"词汇精准度"的重要性,很多高分 AI 诗歌,词汇其实很平凡, 但"整体意象"很强
样例 · 小薇的反思
【编号 3 的诗:《故乡的石头》】(小薇给 8.4 分,判断为"真诗",实际是 AI)
小薇的反思:"我错了。这首诗的意象确实很好,每一句都能看到画面。但我现在回头看,句子和句子之间没有逻辑关联。就是一堆漂亮的意象拼在一起。这不是'好诗',是'好看的意象集合'。AI 最擅长的,就是'堆砌漂亮意象'。"
启发:我需要加一条新的标准:"句子与句子之间的逻辑关联"。这个比"灵气"更可量化。
【编号 4 的诗:《窗》】(小薇给 6.0 分,判断为"AI",实际是真诗)
小薇的反思:"我给它打 4 分的'灵气',所以判断它是 AI。但它其实是真诗,只是表现形式比较朴素。我意识到:我对'灵气'的定义太严格了,我把'复杂'和'有灵气'搞混了。有灵气的诗,可以很简单,但要有'击中人心'的那一刻。"
结果 · 真的发生了什么
- 小薇的盲评对答率:50%(5 对 5 错)
- 但更重要的是,她发现了自己标准的 3 个漏洞:
- 「灵气」太模糊,需要分解成"简洁中的深度"和"击中人心的时刻"
- 高估了"词汇精准"的权重,被 AI 的华丽词汇迷惑
- 忽视了"逻辑关联",很多 AI 诗歌是"漂亮句子 + 漏洞逻辑"
- 最后,小薇把第 3 条标准改成了:"词汇精准 + 句间逻辑通顺",重新定义了"灵气"
- 她说:"这个实验让我比读 100 首诗歌评论更了解'好诗'是什么。"
这个孩子学到什么
小薇的总结笔记:"我以为我很懂什么是'好诗',其实我只是'能感受到',但说不清。这个 50% 对答率的失败,反而比成功更有价值。因为它告诉我,我的标准有漏洞。我发现了'灵气'和'华丽'的差别、'意象鲜活'和'意象堆砌'的差别。下一步,我想用这个新的标准,重新评价我 8 个月来写的 30 首诗。"
什么没成 · 改了几遍才好
第一版:只有 3 条标准。测试后发现 3 条不够,特别是"灵气"这个大范畴。
第二版:加到 5 条。但问题是,"灵气"仍然太抽象,导致自己判断时摇摆不定。
最后认识:小薇意识到,"灵气"不应该是一条单独的标准,而应该是"其他 4 条的综合体现"。于是她在第 3 次反思时,改成了"词汇 + 逻辑",把"灵气"融进去。
你也想做?
这个项目用的是中阶版 · 项目 07「定义'好'」。
替换"好诗",可以是:"好看的漫画"评分表(故事、人设、画风、分镜……),"好听的歌"标准(歌词、旋律、编排),"好玩的游戏"指标,"好看的短视频"标准 —— 任何"你有主观判断,但说不清为什么"的领域。