审美工作室 · 进阶版

动手前 · 先懂概念

把"我觉得这个好"变成 AI 也能照着判的标准 —— 一直够好不靠运气。

建议先花 5 分钟到「概念地基」看完这一节的进阶版讲解 —— 你做项目时就不再"照着步骤抄"，而是知道为什么。

前面三所教孩子做出来。这一所教他判断好坏，并把判断本身做成可重复的系统：用 JSON Schema 把"好"形式化、用 LLM-as-judge 自动打分、用CI 跑回归。这一套能力，是工业界招"AI 工程师"时最稀缺的部分。

新概念：什么是 LLM-as-judge？为什么重要？

LLM-as-judge = 用一个 AI 给另一个 AI 的输出打分。本质上是把"评估"自动化。

为什么重要？真实生产环境里，你的 AI 一天可能输出几千条 —— 你不可能手动审。但你可以做一个判官 AI，用你写的标准，自动给每条评分、统计趋势、报警异常。

项目 11 教你用本地 Qwen / DeepSeek 做这件事。完全免费、完全可控。

新概念：什么叫"审美漂移"？为什么要监测？

审美漂移 = 你（或你的 AI 模型）对"什么是好"的标准在不知不觉中改了。

例：你三个月前训练的判官 AI，用同样的标准打分；今天面对同样的样本，给出的分数已经偏移了 —— 因为你升级了基础模型 / 改了 prompt / 加了新例子。

项目 12（大压轴）会把"漂移检测"变成 CI 里的一个自动化检查 —— 让你的整个 AI 系统的"审美"在时间上稳定。

3 个深项目

能被代码读、能被 AI 评分系统执行。

本地 Qwen / DeepSeek 做 LLM-as-judge。给一组作品打分。

把四所学院串起来：一个 Skill、给一个真人、用代码 ship、用判官保证质量。

这是进阶版的尽头

做完压轴项目，你拥有的是：一个真上线的 AI 应用 + 完整工程文档 + 自评估系统 + 给真实用户的伦理审查。这是大多数本科应届生都拿不出的作品集 —— 而你 18 岁前就有了。