共计 1141 个字符,预计需要花费 3 分钟才能阅读完成。
随着生成式 AI 技术的迅猛发展,如何有效检测 AI 生成的内容已成为全球关注的焦点。2025 年,距离生成式 AI 首次引发广泛讨论仅三年,AI 内容检测器的准确性和可靠性却经历了显著波动。,
AI 内容检测器的演变历程
2023 年初,首次测试的三个 AI 内容检测器中,表现最佳的准确率仅为 66%。到了 2025 年 2 月,测试的检测器数量增加到 10 个,其中三个获得了满分。然而,仅仅两个月后,五个检测器宣称达到了满分。然而,半年后的测试显示,质量有所下降,仅有三个检测器保持满分,其中包括一个新加入的检测器。
剽窃与 AI 生成内容的界定
根据 Merriam-Webster 的定义,剽窃是指“窃取并冒充他人的想法或文字为自己的,使用他人的作品而不注明来源。”这一定义同样适用于 AI 生成的内容。虽然使用 Notion AI 或 ChatGPT 等工具的人并未直接窃取内容,但如果未注明文字来源并声称是自己的,仍符合剽窃的定义。,
测试方法与结果分析
为了评估 AI 检测器,测试使用了五段文本,其中两段由人类撰写,三段由 ChatGPT 生成。每个检测器分别对每段文本进行检测,记录结果。超过 70% 的概率被视为强概率,无论是支持人类还是 AI 撰写的内容。
在 11 个检测器的五轮测试中,五个检测器在所有测试中正确识别了人类和 AI 文本。然而,测试结果显示,非母语者的写作常被误判为 AI 生成,且各系统的结果极不一致。,
聊天机器人在内容检测中的优势
有趣的是,聊天机器人在内容检测方面的表现远优于独立的内容检测器。测试显示,聊天机器人的成功率显著高于所谓的“内容检测器”。例如,ChatGPT 免费版不仅正确识别了人类撰写的文本,还准确识别了作者身份。,
主流 AI 内容检测器性能对比
- BrandWell AI 内容检测 :准确率 40%,表现不佳。
- Copyleaks:准确率 80%,但将人类撰写的文本误判为 AI 生成。
- GPT-2 Output Detector:准确率 60%,未更新。
- GPTZero:准确率 80%,但性能有所下降。
- Grammarly:准确率 40%,无改进。
- Pangram:准确率 100%,表现优异。
- Originality.ai:准确率 80%,但将人类撰写的文本误判为 AI 生成。
- QuillBot:准确率 100%,表现稳定。
- Undetectable.ai:准确率 20%,性能大幅下降。
- Writer.com AI 内容检测器 :准确率 40%,无改进。
- ZeroGPT:准确率 100%,表现优异。
结论与展望
尽管部分 AI 内容检测器表现优异,但整体准确性和可靠性仍不稳定。聊天机器人在内容检测方面的表现令人瞩目,可能成为未来替代独立内容检测器的有力竞争者。然而,依赖这些工具时仍需谨慎,特别是在验证人类撰写的内容时。
(本文为 2023 年 1 月关于 AI 内容检测器文章的完全更新版本。)