动手前 · 先懂概念
把"我觉得这个好"变成 AI 也能照着判的标准 —— 一直够好不靠运气。
建议先花 5 分钟到「概念地基」看完这一节的进阶版讲解 —— 你做项目时就不再"照着步骤抄",而是知道为什么。
→ 看「评估框架 / LLM-as-judge」概念地基把审美外化成系统:JSON Schema、LLM-as-judge、漂移检测。3 个深项目,最后一个把四所学院全部串起来。
前面三所教孩子做出来。这一所教他判断好坏,并把判断本身做成可重复的系统:用 JSON Schema 把"好"形式化、用 LLM-as-judge 自动打分、用CI 跑回归。 这一套能力,是工业界招"AI 工程师"时最稀缺的部分。
LLM-as-judge = 用一个 AI 给另一个 AI 的输出打分。本质上是把"评估"自动化。
为什么重要?真实生产环境里,你的 AI 一天可能输出几千条 —— 你不可能手动审。但你可以做一个判官 AI,用你写的标准,自动给每条评分、统计趋势、报警异常。
项目 11 教你用本地 Qwen / DeepSeek 做这件事。完全免费、完全可控。
审美漂移 = 你(或你的 AI 模型)对"什么是好"的标准在不知不觉中改了。
例:你三个月前训练的判官 AI,用同样的标准打分;今天面对同样的样本,给出的分数已经偏移了 —— 因为你升级了基础模型 / 改了 prompt / 加了新例子。
项目 12(大压轴)会把"漂移检测"变成 CI 里的一个自动化检查 —— 让你的整个 AI 系统的"审美"在时间上稳定。
能被代码读、能被 AI 评分系统执行。
本地 Qwen / DeepSeek 做 LLM-as-judge。给一组作品打分。
把四所学院串起来:一个 Skill、给一个真人、用代码 ship、用判官保证质量。