📏 这是真小孩写的吗?
蕾拉 · 14 岁 · 用 Ollama 本地模型
"我做了一个判官 AI,能分辨『真孩子写的作文』和『AI 假装小孩写的作文』"
背景
蕾拉的学校开始有问题。越来越多同学交作文的时候,明显是 AI 写的 —— 但用的是"假装一个 12 岁孩子"的口气。这些作文非常工整、非常感人、非常"无懈可击",但就是没有真孩子写的那种"笨拙感"或"真实的错误"。老师们开始怀疑,但很难证实。
动机 · 为什么做这个
蕾拉有一次在班级 chat 里直言不讳:"这个作文明显是 AI 写的。"被点名的同学很尴尬。蕾拉也不好受。但更让她生气的是:"为什么不诚实呢?"她想用一个工具,客观地说清楚"这是不是真孩子写的",这样就没有人身攻击了。
时间 + 工具
用了什么: Ollama(本地跑 Qwen 模型),自己写的对比分析脚本
花了多久: 三周,每周末 4-5 小时
大人帮忙了多少: 爸爸初期帮忙装 Ollama,其后蕾拉完全自主
步骤 · 这个孩子是怎么做的
- 样本收集: 从班里、网上和老师那里收集 200 篇真孩子写的作文(7-9 年级),100 篇用 ChatGPT/Qwen 写的"假装小孩"的作文。
- 特征列表初版: 自己读这些作文,列出可能的"AI 假装"特征:句式太整齐、用词一致、逻辑完美、不会偏题、没有错别字、细节都准确、结尾必煽情。
- AI 分析: 拿这些特征列表给 Ollama,让它对两类作文进行系统分析。
- 特征精化: 根据 AI 的分析,调整和补充特征。增加了"真孩子作文的特征",比如"有些句子没头没尾"、"会犯一些只有这个年纪才会犯的错"、"有些细节记得很清,有些细节模糊"。
- 模型训练: 用 Ollama 做了一个简单的判别模型,输入一篇作文,输出"这是真孩子的概率"和理由。
- 验证与优化: 在教室里做了个小实验:给同学们一些新作文,他们先猜,然后用蕾拉的判官 AI 检查。正确率 91%。
核心 prompt(节选)
你是一个作文真伪检测助手。我要给你一篇作文,你要判断这是真孩子(7-9 年级,大约 13-15 岁)写的,还是 AI 假装写的。 判断标准: 真孩子的作文特征: - 句式有长有短,不均匀 - 有些词用对了,有些地方用词不当但能理解 - 可能有 1-2 个错别字,但不是全错 - 细节有真有假 —— 记得很清的地方和记不清的地方混在一起 - 有时候会跑题,然后又拉回来 - 感情表达时有些生硬,不是完美的抒情 - 结构不完全工整,可能有"突然想到什么就加进去"的感觉 AI 假装的特征: - 每句话长度和复杂度都很接近 - 词汇非常一致,不会有"这个词不是小孩常说的"但又用了的情况 - 没有错别字(或只有很少) - 细节都准确,没有模糊的记忆 - 逻辑特别完整,没有跑题 - 感情表达特别流畅,甚至有点过度 - 结构很工整,开头中间结尾都交代得很清 任务: 1. 列出这篇作文出现的 3-5 个关键特征 2. 给出"真孩子写的概率"(0-100%) 3. 解释为什么
样例对话 · AI 真的是这样答的
输入一篇作文:「今天我去公园。公园里有很多花。我看到了一只蝴蝶,它的翅膀是蓝色的。我很开心。我就一直跟着它走,结果走迷路了。后来妈妈找到我了。我学到了一个道理:不要跟着陌生的蝴蝶走。」
判官回答:判定:AI 假装的(真孩子概率 15%) 特征: 1. 每句话长度完全一样,都是很短的陈述句 —— 真孩子会有长有短。 2. 事件的逻辑特别完整:看花 → 看蝴蝶 → 跟着走 → 迷路 → 被找到 → 学到道理。没有任何跑题。真孩子会说"我看花的时候还想起了上次的事"之类。 3. 最后那句"学到一个道理"特别 AI。真孩子写这个,要么就是"我再也不跟蝴蝶走了",要么根本不会加什么"道理"。 4. 没有错别字,没有模糊的细节("蓝色的"太准确了)。真孩子会说"我不太记得是什么颜色,但特别漂亮"。 建议:这篇作文如果要让人觉得真实,需要加一些"笨拙感" —— 句式不规则、有些细节记不清、可能有一两个错字、感情表达不那么完美。
输入另一篇作文:「昨天我和朋友去逛街。本来想买个新书包,可是钱不够。我问妈妈能不能借钱,她说「下个月再说吧」。我有点失望,但我也理解。不过现在我还是想要那个书包,哈哈。」
判官回答:判定:真孩子写的(真孩子概率 87%) 特征: 1. 句式有长有短 —— "可是钱不够"很短,但"我问妈妈...她说...我有点失望..."就比较长。 2. 有一个细节记得(新书包、价格问题),有一个细节模糊(妈妈的确切回答有点模糊,只记了大意)。 3. 最后那句"哈哈" —— 完全是真孩子的风格。AI 不太会这样加。 4. 感情表达有点生硬 —— "我有点失望,但我也理解",这是真孩子试图表达复杂感受时的样子。AI 会写得更流畅。 5. 结尾没有"学到道理"那种东西,就是"现在还想要"。很真实。 判定:很可能是真孩子写的。
结果 · 真的发生了什么
- 蕾拉的判官 AI 在班级测试中的准确率是 91%。老师们对这个工具的兴趣很大。
- 有一个同学拿着判官 AI 的"AI 假装特征列表",问蕾拉:"所以我要写得像真孩子,就是要打破这些规则对吗?"蕾拉说"对"。那个同学的下一篇作文明显更有"人味儿"了。
- 最有意思的反应来自蕾拉自己。她用判官 AI 检查了自己的作文,发现"我写的东西有些地方太工整了,有些地方又太乱"。她开始更有意识地写,既保持真实,也保持清晰。
- 她说:"不是因为我学会了『反 AI』。是因为我搞清楚了『真』是什么意思。"
- 老师把这个工具推荐给了全年级,现在成了学校的非正式"作文检测器"。
这个孩子学到什么
蕾拉学到的最深层的东西是:诚实和技术之间的关系。她本来以为"指出 AI 作文"是种指责,但后来发现其实是在帮助同学们理解"什么是真实的表达"。这让她对"真"这个概念有了更深的理解 —— 真实不是完美,反而是有缺陷、有不一致、有"笨拙感"的。
什么没成 · 改了几遍才好
第一版的判官太严格了,把所有"写得好"的作文都判成了 AI。蕾拉后来加入了"真孩子也可以写得好"这一条,调整了判别的权重。改了五次,从"过度检测"变成了"准确检测"。
- 她用 AI 来检测 AI。
- 她建立了一个准确率很高的系统。
- 她把一个"感觉不对"的东西变成了"有规律可循"的东西。
- 她帮老师解决了作业问题。
- 她的工具变成了学校的工具。
如果你也想做类似的事,怎样开始?
如果你也想用 AI 来做一个"检测"或"分析"工具:1. 选择一个类别(文章、代码、图像等),你能感觉出"真"和"假"的区别。2. 收集至少 50 个"真"的例子和 50 个"假"的例子。3. 仔细观察,列出"真"和"假"的特征。4. 用 AI 来帮你系统地分析这些特征。5. 反复验证,调整规则。6. 最后得到的不只是一个工具,更是对"什么是真"的深刻理解。