📏 这是真小孩写的吗？

蕾拉 · 14 岁 · 用 Ollama 本地模型

"我做了一个判官 AI，能分辨『真孩子写的作文』和『AI 假装小孩写的作文』"

背景

蕾拉的学校开始有问题。越来越多同学交作文的时候，明显是 AI 写的 —— 但用的是"假装一个 12 岁孩子"的口气。这些作文非常工整、非常感人、非常"无懈可击"，但就是没有真孩子写的那种"笨拙感"或"真实的错误"。老师们开始怀疑，但很难证实。

动机 · 为什么做这个

蕾拉有一次在班级 chat 里直言不讳："这个作文明显是 AI 写的。"被点名的同学很尴尬。蕾拉也不好受。但更让她生气的是："为什么不诚实呢？"她想用一个工具，客观地说清楚"这是不是真孩子写的"，这样就没有人身攻击了。

时间 + 工具

用了什么： Ollama（本地跑 Qwen 模型），自己写的对比分析脚本

花了多久： 三周，每周末 4-5 小时

大人帮忙了多少： 爸爸初期帮忙装 Ollama，其后蕾拉完全自主

步骤 · 这个孩子是怎么做的

样本收集： 从班里、网上和老师那里收集 200 篇真孩子写的作文（7-9 年级），100 篇用 ChatGPT/Qwen 写的"假装小孩"的作文。
特征列表初版： 自己读这些作文，列出可能的"AI 假装"特征：句式太整齐、用词一致、逻辑完美、不会偏题、没有错别字、细节都准确、结尾必煽情。
AI 分析： 拿这些特征列表给 Ollama，让它对两类作文进行系统分析。
特征精化： 根据 AI 的分析，调整和补充特征。增加了"真孩子作文的特征"，比如"有些句子没头没尾"、"会犯一些只有这个年纪才会犯的错"、"有些细节记得很清，有些细节模糊"。
模型训练： 用 Ollama 做了一个简单的判别模型，输入一篇作文，输出"这是真孩子的概率"和理由。
验证与优化： 在教室里做了个小实验：给同学们一些新作文，他们先猜，然后用蕾拉的判官 AI 检查。正确率 91%。

核心 prompt（节选）

你是一个作文真伪检测助手。我要给你一篇作文，你要判断这是真孩子（7-9 年级，大约 13-15 岁）写的，还是 AI 假装写的。

判断标准：

真孩子的作文特征：
- 句式有长有短，不均匀
- 有些词用对了，有些地方用词不当但能理解
- 可能有 1-2 个错别字，但不是全错
- 细节有真有假 —— 记得很清的地方和记不清的地方混在一起
- 有时候会跑题，然后又拉回来
- 感情表达时有些生硬，不是完美的抒情
- 结构不完全工整，可能有"突然想到什么就加进去"的感觉

AI 假装的特征：
- 每句话长度和复杂度都很接近
- 词汇非常一致，不会有"这个词不是小孩常说的"但又用了的情况
- 没有错别字（或只有很少）
- 细节都准确，没有模糊的记忆
- 逻辑特别完整，没有跑题
- 感情表达特别流畅，甚至有点过度
- 结构很工整，开头中间结尾都交代得很清

任务：
1. 列出这篇作文出现的 3-5 个关键特征
2. 给出"真孩子写的概率"（0-100%）
3. 解释为什么

样例对话 · AI 真的是这样答的

输入一篇作文：「今天我去公园。公园里有很多花。我看到了一只蝴蝶，它的翅膀是蓝色的。我很开心。我就一直跟着它走，结果走迷路了。后来妈妈找到我了。我学到了一个道理：不要跟着陌生的蝴蝶走。」

判官回答：判定：AI 假装的（真孩子概率 15%）特征： 1. 每句话长度完全一样，都是很短的陈述句 —— 真孩子会有长有短。 2. 事件的逻辑特别完整：看花 → 看蝴蝶 → 跟着走 → 迷路 → 被找到 → 学到道理。没有任何跑题。真孩子会说"我看花的时候还想起了上次的事"之类。 3. 最后那句"学到一个道理"特别 AI。真孩子写这个，要么就是"我再也不跟蝴蝶走了"，要么根本不会加什么"道理"。 4. 没有错别字，没有模糊的细节（"蓝色的"太准确了）。真孩子会说"我不太记得是什么颜色，但特别漂亮"。建议：这篇作文如果要让人觉得真实，需要加一些"笨拙感" —— 句式不规则、有些细节记不清、可能有一两个错字、感情表达不那么完美。

输入另一篇作文：「昨天我和朋友去逛街。本来想买个新书包，可是钱不够。我问妈妈能不能借钱，她说「下个月再说吧」。我有点失望，但我也理解。不过现在我还是想要那个书包，哈哈。」

判官回答：判定：真孩子写的（真孩子概率 87%）特征： 1. 句式有长有短 —— "可是钱不够"很短，但"我问妈妈...她说...我有点失望..."就比较长。 2. 有一个细节记得（新书包、价格问题），有一个细节模糊（妈妈的确切回答有点模糊，只记了大意）。 3. 最后那句"哈哈" —— 完全是真孩子的风格。AI 不太会这样加。 4. 感情表达有点生硬 —— "我有点失望，但我也理解"，这是真孩子试图表达复杂感受时的样子。AI 会写得更流畅。 5. 结尾没有"学到道理"那种东西，就是"现在还想要"。很真实。判定：很可能是真孩子写的。

结果 · 真的发生了什么

蕾拉的判官 AI 在班级测试中的准确率是 91%。老师们对这个工具的兴趣很大。
有一个同学拿着判官 AI 的"AI 假装特征列表"，问蕾拉："所以我要写得像真孩子，就是要打破这些规则对吗？"蕾拉说"对"。那个同学的下一篇作文明显更有"人味儿"了。
最有意思的反应来自蕾拉自己。她用判官 AI 检查了自己的作文，发现"我写的东西有些地方太工整了，有些地方又太乱"。她开始更有意识地写，既保持真实，也保持清晰。
她说："不是因为我学会了『反 AI』。是因为我搞清楚了『真』是什么意思。"
老师把这个工具推荐给了全年级，现在成了学校的非正式"作文检测器"。

这个孩子学到什么

蕾拉学到的最深层的东西是：诚实和技术之间的关系。她本来以为"指出 AI 作文"是种指责，但后来发现其实是在帮助同学们理解"什么是真实的表达"。这让她对"真"这个概念有了更深的理解 —— 真实不是完美，反而是有缺陷、有不一致、有"笨拙感"的。

什么没成 · 改了几遍才好

第一版的判官太严格了，把所有"写得好"的作文都判成了 AI。蕾拉后来加入了"真孩子也可以写得好"这一条，调整了判别的权重。改了五次，从"过度检测"变成了"准确检测"。

← 看更多作品

小测蕾拉用 AI 最聪明的地方在哪？

选最有道理的答案：

她用 AI 来检测 AI。
她建立了一个准确率很高的系统。
她把一个"感觉不对"的东西变成了"有规律可循"的东西。
她帮老师解决了作业问题。
她的工具变成了学校的工具。

解释：蕾拉最聪明的地方是，她不是简单地"指责"，而是在做分析。通过分析，她帮助每个人（包括自己）更清楚地理解"什么是真实的表达"。这种能力 —— 把模糊的感觉变成清晰的规律 —— 才是最有价值的。

如果你也想做类似的事，怎样开始？

如果你也想用 AI 来做一个"检测"或"分析"工具：1. 选择一个类别（文章、代码、图像等），你能感觉出"真"和"假"的区别。2. 收集至少 50 个"真"的例子和 50 个"假"的例子。3. 仔细观察，列出"真"和"假"的特征。4. 用 AI 来帮你系统地分析这些特征。5. 反复验证，调整规则。6. 最后得到的不只是一个工具，更是对"什么是真"的深刻理解。