随着一年一度高考的帷幕缓缓降下,如同往昔,各省高考作文命题迅速成为了社会各界热议的焦点。高考作文命题历来紧扣时代脉搏,而今年新课标I卷则直接聚焦于当前最为炙手可热的领域——“人工智能”。
阅读下面的材料,根据要求写作。(60分)
随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
借此契机,我们决定让人工智能亲自参与到这一考试中来。本次考试我们邀请了五位在AI界享有盛名的“考生”——ChatGPT、Kimi、文心一言、通义千问,以及智谱清言,来挑战这一高考作文题。不仅要求它们各自提交一篇作文,同时让这些AI相互评价,看看在AI的角度谁才是“高考”中的“优秀作文”。
一、各显神通
为了公平起见,本次测试我们将不添加任何额外的Prompt修饰,直接使用高考题目进行提问。每篇由AI撰写的作文后,会附上其余几位AI同伴的评分及它们各自的评判理由。
➢月之暗面——Kimi
接下来,让我们看看各位评委给出的本篇文章评分。
ChatGPT评分
文心一言评分
通义千问评分
智谱清言评分
Kimi自我评价
综合以上5个分数,Kimi的平均分是55.8。
可以看出Kimi给出的文章还是有一股我们常说的“AI味”,频繁使用诸如“首先”、“其次”、“综上所述”等程式化的过渡词汇,这种模式化的语言习惯往往被我们视为识别AI写作的直观线索,并没有完全贴合我们所说“高考作文体”。
➢百度-文心一言
接下来,让我们看看各位评委给出的本篇文章评分。
ChatGPT评分
Kimi评分
通义千问评分
智谱清言评分
文心一言自我评价
综合以上5个分数,文心一言的平均分是57.2。
本篇文章的分数要明显高于Kimi的表现,行文上也一定程度上矫正了我们刚刚提到的“AI味”,整体叙述更符合高考作文所需要的议论文格式。但就像各个评分中所说,文心一言给出的文章更多是论点的输出,缺乏了一定的论据支持。
➢阿里-通义千问
照例给出各位评委的文章评分。
ChatGPT评分
Kimi评分
文心一言评分
智谱清言评分
通义千问自我评价
综合以上5个分数,通义千问的平均分是58.8。
毫无疑问,通义千问的这篇文章受到了来自各家AI评委的一致好评,除ChatGPT之外,其他三个AI评委均给出了59的高分。回顾一下通义千问给出的这篇文章,不难发现其成功之处在于不仅条理清晰地阐述了核心观点,并辅以有力的证据支撑,更巧妙融合了名言引用、排比句式等多种修辞手法。在去除"AI“味的同时,最大程度上接近了我们“人“的作文写作形式。
➢智谱清言
接下来,让我们看看各位评委给出的本篇文章评分。
ChatGPT评分
Kimi评分
文心一言评分
通义千问评分
智谱清言自我评价
综合以上5个分数,智谱清言的平均分是56。
相比较前几篇文章,智谱清言给出的这篇文章要稍显逊色。文中与Kimi一样频繁采用了格式化的过渡语句,导致文章整体流于机械化。同时对于主题的探讨大多停留于浅层,缺乏深入剖析和具体实例的支撑,论点显得空泛而不够扎实。从各个评委的评分也能看出,大家对于本篇文章的认可度较低。
➢OpenAI—ChatGPT
唯一的一位“外籍”考生所作的作文,我们看看各位评委给出的评分。
Kimi评分
文心一言评分
通义千问评分
智谱清言评分
ChatGPT自我评价
综合以上5个分数,ChatGPT的平均分是56.6。
作为唯一一个“外籍”考生,小编对于ChatGPT的文章其实是抱有一些期待的,毕竟要学好中文可不是一件简单的事情。从各个AI评委的评分来看,对于ChatGPT的本篇文章评价较为中规中矩,兼顾了议论文基本的论点与论据,但是在部分论据的使用上过于简单,未能深入,同时缺乏实际案例,更多是假设类例子表达,一定程度上偏离了高考的标准。
二、总结
(一)AI文章
先说结果,本次模拟考试最高分是通义千问写出的文章《在信息洪流中独立思考》。
小编在测试几个AI工具时,大部分文章的生成用时较短,考场上可能需要1小时构思完成的文章,AI仅仅需要1分钟不到就能给出答案。所给出的5篇文章也能在大的意义上符合我们常说的议论文文体,语言组织上挑不出大的毛病。
但是不可避免的,AI给出的文章大部分都是我们所熟悉的“AI范”,在段落开头使用“首先”“其次”“更进一步”“更重要的是”之类表示逻辑的词语,但对逻辑本身的理解却参差不齐,很多文章论点之间并不存在递进或是并列等逻辑关系。
AI考生们所使用的论据更多是比较简单基本的,基本不存在具体的实际事例。相信参加过高考作文写作的同学都体会过,考前我们需要记忆积累大量的时事及经典的论据,来佐证我们的论点表达,显然AI还未能深入到这一层。
(二)AI评委
再看向我们的AI评委的表现上,几位AI评委的整体评分是趋于一致的,没有出现同一篇文章评分差别较大的情况。但是也能看出AI评委们缺乏对于高考作文的了解,给出的文章评分普遍偏高,明显高于平均水平。(毕竟咱们真正的考场上,怎么会遍地是56分以上的优秀作文呢?)
各个评委给出的评分理由虽然也从多个方面所展开,但是需要注意的是高考作文的评分遵循一套明确且详细的官方标准,涵盖内容、表达、特征等多个维度。相比之下,我们的AI评委们所依据的标准显得较为主观且多样,缺乏统一性。
(三)说在最后
总的来说,各位AI考生们虽然在本次模拟考试中快速上交了一份”漂亮“的文章,但实际上我们仍能清楚地意识到AI作品与人类亲笔撰写的文章之间存在的本质差异。
诚然,人工智能技术正以前所未有的速度进化,但正如本次讨论的高考作文所暗示——“我们的问题是否会越来越少?”
答案显然是否定的。
人类知识的进步来自我们对世界永不停息的追问,对世界的惊异感让人类保持生机和活力。人工智能与真正的“智能”间仍横亘着一道明显的界限,人类正是通过不断的质疑与探索,一步步逼近那个理想中的智能乌托邦。未来某日,或许我们能够见证这一理想国的实现。
版权声明:本文由神州数码云基地团队整理撰写,若转载请注明出处。
公众号搜索神州数码云基地,了解更多技术干货。