动手前 · 先懂概念
把"我觉得这个好"变成 AI 也能照着判的标准 —— 一直够好不靠运气。
建议先花 5 分钟到「概念地基」看完这一节的萌芽版讲解 —— 你做项目时就不再"照着步骤抄",而是知道为什么。
→ 看「评估框架 / LLM-as-judge」概念地基让 AI 变好的"暗功夫"
第四所,也是最小的一所学院。最哲学、最深、最少废话。审美不是一种感觉 —— 它是一套系统。一套你可以让别的系统、和未来的自己,都对着它对齐的系统。
就是 —— 让一个 AI 去给另一个 AI 的回答打分。
具体怎么做?你写一份"评分标准"(5 条:"字数在 50–100 之间"、"语气活泼"、"不能出现专业术语"……),然后让 AI A 生成一段文字,再让 AI B 拿着这份标准给 A 的输出打分。
为什么有用?因为人不可能每天手动检查 AI 给的几百条回答,但 AI 可以。这就是审美工作室最核心的招式:把"我觉得这个好",变成"AI 也能照着判的标准"。
为什么单独一所只讲审美?因为前三所学院都在"做东西"。但当一个孩子长到 13、14 岁,他需要学的下一件事,是"怎么知道自己做的东西好"。这件事不学会,AI 时代他每一次按下"生成",都是在向"灰色泥浆"里多倒一勺。
原版用 DeepSeek API(付费)作为"判官"。我们用:
写下你的标准:
没有标准答案,但这是一个真实例子:
我的"代码"的 5 条审美标准是: ① 变量名能让陌生人一读就知道是什么(不用猜) ② 一个函数不超过 20 行(超过就该拆) ③ 重复的代码被提取成公共函数(没有复制粘贴) ④ 有清晰的报错信息,让用户知道哪里出了问题 ⑤ 后来的人改我的代码,也能快速看懂逻辑
为什么这个好?因为这 5 条都是"可以被检查的" —— 你可以数一下函数行数、检查变量名是否清晰、列出所有重复的代码。当你有了这 5 条标准,再看任何代码,你都有"判的武器"。
大多数人没认真想过这个问题。这一节让孩子写下他自己心里"好"的 5 条标准 —— 然后发现,这 5 条之间会打架。这是审美的第一课:好不是一个值,是一组权衡。
把上一节的 5 条标准,写成一个 AI 能跑的"评分系统"。给它 10 个新作品,让它打分。然后看哪些和你的直觉吻合 —— 不吻合的地方,是你审美没想清楚的地方。
三个月前的你和今天的你,对同一个东西的判断,可能已经不一样了。这一节做一个"漂移检测器"—— 让过去的你和现在的你对话,看自己变了什么。
用技能工坊的"教 AI"、代码俱乐部的"真代码"、智能体实验室的"为别人做"、审美工作室的"评判系统",做一个完整的、有自己审美主张的、为一个具体的人服务的 AI 应用。这是整个薪火课程的毕业礼。
审美工作室这 4 个模块,每一个都在"把无形的审美变成有形的工具"。这是整个过程:
从"我感觉这个好"到"我有一个能持续监测好不好的系统" —— 这就是审美工作室四个模块的递进。
孩子知道什么是好的,但能不能写出来?这是审美的起点:把直觉变成可以分享、可以挑战、可以更新的文字。
LLM-as-judge 的最初版本。让 AI 用你的 5 条标准给样本打分,对照自己打的分数,看 AI 的"口味"和你的差多远。
孩子的审美会变。AI 给的"今天最好"也会变。怎么区分"长大了"和"被算法带偏了"?这一节做一个"自己的审美版本