前言:现在的ai真的太火爆了,让人不得不感叹ai的神奇之处,让我们一起来探讨下ai的强大之处吧!本文仅限学习研究。
背景:最近看到很多人用ai写文章,然后被头条判定为疑似ai生成,所以想研究学习下今日头条先进的检测机制。
然后我自己也尝试用ai生成了一篇文章,想测试下,果不其然,虽然看着已经很接近人类的风格了,但是还是被头条检测到疑似ai生成。通过一些测试,发现头条的文章检测机制可能分为2步,
第一步:对AI生成文章的常见特征进行检测。也就是说,你的文章要是连基本的ai特征都过不了,那么只要你的文章发布成功,不出1秒,立马判定ai生成。这里给出AI初步检测的指令,能进行一些基础的检测:
"- **语言流畅性**:检查文章语言是否自然,避免AI的生硬表达。
"- **逻辑与深度**:评估文章内容是否深入、有条理。
"- **独特性与原创性**:分析文章是否具有独特观点和原创性。
"- **结构与模式**:观察文章结构,避免固定模式。
"- **情感与主观性**:判断文章情感色彩和主观观点的真实性。
"- **异常词汇与表达**:注意异常词汇或表达方式。
"- **辞藻使用**:警惕过度华丽或生硬的辞藻。
"- **段落构造**:检查段落构造和转折是否自然。
"- **标题与分段**:确保文章标题明确,分段清晰。
"- **语义分析与对比**:进行语义分析,利用搜索引擎对比内容。
"- **标点符号使用**:检查是否包含非人类写作常用的标点。
"- **词汇与术语**:评估词汇使用是否符合背景,避免不自然或过度重复。
"- **句子结构**:观察句子结构多样性,避免模式化。
"- **段落组织**:分析段落组织是否自然流畅。
"- **信息密度**:评估信息分布是否均匀。
"- **逻辑连贯性**:检查文章各部分之间的逻辑关系是否流畅。
"- **观点与论证**:分析文章观点和论证是否深入、涉及复杂概念。
"- **上下文敏感性**:检查文章对上下文的敏感性,包括引用、解释和扩展。
"- **异常文本特征**:识别拼写、语法、标点使用不当等异常特征。
"- **关键词与信息提取**:对下面文章进行全面语义分析,抽取出关键字及主要信息;。
"- **对比搜索**:对文章进行全面语义分析,抽取出关键字及主要信息;
然后通过Google 或者百度搜索引擎搜索关键词或者主要信息,在搜索结果中,
查看标题,关键词,关键信息,找到与上述文章内容相似或相关的文章,
阅读找到的相似文章,全面比较其内容与上述文章的相似程度,包括事件描述、
分析、反思、建议、总结、关键词,关键信息等方面,并且列举出来。
"- **AI生成判定**:明确指出可能被判定为AI生成的方面,并依次列出具体句子。
"- **原创度评分**:对文章原创度进行打分,格式为“原创度打分:xx%”。
如果上面的原创度打分超过90%,那么检测第一关大概率过了,这时候就来到了最苛刻的检测了。
第二步:把文章丢到池子中利用大数据进行多方面的技术查重,大概10分钟出结果。如果这关过了,那么文章大概率被判定为原创。
下面是关于第二步的一些实测过程。
我先用ai根据主题写了一篇爆文结构的文章,让后来个初步测试,让ai进行分析。
指令内容:
请帮我分析下面文章内容是否由ai生成。
结果:不出意外,ai判定为人为写作。但是实际经过某平台判定为疑似AI生成。
AI回答的结果:
显而易见,AI自身检测不出来。
下面对该文章再次调试新的查重指令。结果仍然失败,不符合预期。ai仍然判定不出来。
指令:请你从文本相似性,句式相似性,文章结构相似性及语义相似性等标准进行分析。
再次进行指令调优,这次的效果得到了大幅度提升,终于检测出来了。
指令:请进行联网搜索,查询相似内容,并且从文本相似性,句式相似性,文章结构相似性及语义相似性等标准进行分析,列出相似句子。
结果:检测出明显AI特征。
下面是检测结果,判定ai生成的明显证据。
好了,基于上面的测试,我们大概知道了头条的原创检测有多严格了,所以呼吁大家尽可能原创,不要想着规避检测,着力放在提高文章质量上。我是网创有方的站长,如果您有什么想交流的,欢迎下方评论区或者私信讨论学习。