ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案

夕小瑶科技说 原创
作者 | 小戏、Python

在 OpenAI GPT-4 发布时发布的《GPT-4 Technical Report》中,其中很吸引人眼球的一部分是 GPT-4 应用于教育领域的出色表现,通过让 GPT-4 去完成美国的 AP 课程及考试,来评估 GPT-4 在多个学科中的性能。如下图所示,GPT-4 在大量课程中都取得了令人印象深刻的成绩,并且在一些 GPT-3.5 表现不佳的课程,如化学、宏观经济、物理与统计学中都获得了极大的提升

但是如果细看上面这张图,可以发现,GPT-4 在 AP 英国文学中表现不尽如人意,对于一个学习了大量语料知识的语言模型,这一点可能会让人感到费解。当然这里存在一个评估问题,对于自由写作的文本而言,OpenAI 并没有公布它们的评估标准,如果缺少这种细化的评估标准,很难直接得到一个 GPT-4 不擅长英国文学题的结论。

由此,立足于教育的领域,来自德国帕绍大学的研究者们组织了一次细致的评估工作,其主题在于“大模型可以写好议论文(Argumentative Essays)吗?”,通过构建一个基于内容和语言掌握程度的细致的文章质量评分标准,聘请了 111 位一线的高中教师对大模型生成的问题进行评分,这篇论文发现,大模型在作者构建的评分标准中,得分普遍高于德国高中生写作的议论文,但是另一方面,人类的写作与 AI 的写作在风格上存在显著的差异,人类倾向于在议论文中更多的表达自己的态度与认知结构,而 AI 则更多的使用高级的、复杂的、更“科学”的语言(名词化的结构)去进行论证。而在风格多样性方面,从GPT-4 到 GPT-3.5 迈出了一大步,GPT-3.5 的语言多样性仍然显著低于人类,但是 GPT-4 的语言丰富度已经开始显著高于人类

论文题目:

AI, write an essay for me: A large-scale comparison
of human-written versus ChatGPT-generated essays

论文链接:

https://arxiv.org/pdf/2304.14276.pdf

大模型研究测试传送门

ChatGPT传送门(免墙,可直接测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):

https://gpt4test.com

如果带着问题出发,这篇论文核心主要是希望解决三个方面的问题,分别是:

  1. 基于 GPT-3.5 和 GPT-4 的大模型在撰写议论文方面表现如何
  2. 大模型生成的文章与人类撰写的文章相比如何
  3. 大模型写作相较于人类突出的语言特征是什么

带着这三个问题,论文设计并实施了一套完整的评估流程。首先,论文作者从一个议论文语料库(essayforum)中选取主题,essayforum 是一个拥有大量高中生用户的活跃的文本写作社区,许多非母语的高中生经常去此社区去获得对自己作文文章的反馈。essayforum 包含有 90 个主题的文章,主题范围从“学生应该被教育去竞争还是合作?”到“报纸在未来会被取代吗?”等等,每个主题都会有一个由人类撰写的文章被上传并在论坛内进行讨论,这些文章平均约 19 个句子,接近 400 余个单词。通过设定不同的主题,论文作者设置了“在【主题】上写一篇大约200字的文章”的 Prompt 输入 GPT-3.5 与 GPT-4

在获得了 AI 的写作文章后,论文作者又组织了针对评分者(高中老师)的关于 ChatGPT 基础知识的培训讲座,参与老师的主要所在学科包括语言(英语,法语和德语),宗教,伦理和科学等等。在两个小时的讲座与四十五分钟的讨论后,参与教师收到了关于文章评分的问卷,这份问卷包含了文章评估相关的七个评估标准,分别是:

  • 主题完整性
  • 逻辑
  • 表达
  • 语言掌握程度
  • 深度(复杂度)
  • 流畅程度
  • 语言结构

具体量表如下图所示,每类指标需要专家进行打分,分值从0-6,0 分最低,6 分最高。每位参与者都会被展示六篇随机选择的文章,在评估完成后,结果将提交到系统中供论文作者统计。

而进一步的,为了将 AI 生成的文章与学生写作的文章进行对比,论文考虑了词汇多样性、句法复杂性、名词化、情态动词、认知标记与话语标记六类语言特征,使用计算语言学的方法对这六类特征进行统计处理。其中词汇多样性方面,论文使用文本词汇多样性度量(MTLD)确定词汇丰富程度,在句法复杂性方面,论文度量句子依存树的最大深度与从属从句结构来评估句子复杂性,在名词化方面,论文统计了具有诸如“-ion”,“-ment”,“-ance”和其他一些已知将动词转化为名词的后缀词的出现次数,在情态动词与认知标记方面,论文都采用了词性标注的方法进行识别,以统计如“我认为”,人们认为”,“在我看来”这类认知标记的出现频次。而在话语标方面,论文采用了 PDTB 的话语标记序列对如如“like”、“for”、“in”等话语标记词进行统计。

最终,整体文章评分的分值如上图所示,几乎对于所有的评价指标,都是学生撰写的文章评分最低,GPT-3.5 居中,GPT-4 评分最高,上图右侧的小提琴图可以带来更加直观的展示。

而分析计算语言学层面统计的各个指标,如上图所示,可以发现人类撰写的文章与 ChatGPT 撰写的文章差异显著,一方面,当涉及到文章的表达能力和复杂性时,人类和大模型之间的差异最小。另一方面,语言掌握能力差异显著大于其他所有的差异(这一点结合写作文章的主要来自非母语高中生似乎表明差异主要来源于语言本身的熟练程度上),并且另一点显著的差异在于 AI 更多的使用名词化构成更加复杂的句子,而人类则更加趋向于使用情态动词与认知标记,并且人类词汇的多样性要高于 GPT-3.5 但低于 GPT-4。

除了模型与学生写作之间的对比外,模型与模型之间的对比也能揭示一点模型的进步方向,如虽然 GPT-4 在几乎所有指标上的平均值都大于 GPT-3.5,但只有逻辑、词汇、文本链接与复杂度中差异是显著的,即 GPT-4 对 GPT-3.5 真正的提升主要来源于这四个方面。

某种程度上,这篇文章证明了人们关于 AI 在教育应用中的许多担心并非无的放矢,AI 可以高质量的完成议论文的写作预示了未来一个根本性的改变“我们或许要重新定义‘作业’这种东西了”,换言之是去思考当我们希望学生去练习自己的写作时,到底是希望他/她通过完成这样一篇文章(譬如国内的高考作文题)而获得什么样的能力,而并不是简单的对网格纸上的文字一扫而过给出一个四五十分的作文分数。

事实上,GPT-4 的作文能力对语言的教学的意义有点类似于计算器的出现对数学教学的意义,对教育工作者而言,GPT-4 的出现应当使得老师与作为这些模型使用者的学生一道去反思课程教学的本质以及何时去恰当的使用这些工具,AI 可以完成课程作业事实上与课程的教学目标本身并不冲突,尽管在短期内教学的目标可能需要被迫的进行调整,比如之前多所高校禁止使用 ChatGPT 的新闻。但是就好比计算不是数学的本质一样,议论文必然也不是写作的本质,写作能力的训练与写作工具的使用并不冲突,真正需要改变的,从来应当是教育理念与教育方式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/22431.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AtCoder Beginner Contest 302(A-D)

TOYOTA MOTOR CORPORATION Programming Contest 2023#2 (AtCoder Beginner Contest 302) Contest Duration: 2023-05-20(Sat) 20:00 - 2023-05-20(Sat) 21:40 (local time) (100 minutes) 暴搜场,1个小时出了4道,以为很有机会,结果E交了十发没…

python+django基于爬虫系统的世界历史时间轴历史事件大事记6ouj9

随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&#xf…

Mit6.006-lecture09-Breadth-First-Search

一、新单元:图 Quiz 1包含lecture01到lecture08,关注数据结构和排序 今天开始新单元,lecture09-lecture14,关注图算法 二、图应用 图无处不在 任何网络系统都存在有向连接图 比如:路网、计算机网络、社交网络 任…

PySide6/PyQT多线程之 多线程 与 线程池的模板(拿来即用)

前言 关于PySide6/PyQT多线程系列的最后一篇。写这篇文章的动机是方便后续代码的直接复用。 本篇文章实际是水文,给出了 PySide6/PyQT的多线程以及线程池的基础使用模板,方便后面有需要时候直接拿来就用。 多线程 这里分两种情况来谈论,有返…

热烈欢迎CSDN副总裁邹欣老师入驻知识星球

重磅消息 CSDN 副总裁 邹欣 老师成功入驻知识星球 —— 英雄算法联盟,成为合伙人之一。 这将是未来几年内,IT界最震撼的一次合作!我相信就算现在不是,将来必定是! 当然,这对我来说也是一种极大的鼓舞&#…

GPT-5: 超越人类语言的模型,你还不了解一下?

目录 一、GPT-5时代引领者 二、技术特性 1,音频和视频处理 — 更强大的多模态处理能力 2,GPT-5颠覆影视制作:重写媒体消费时代 3,为机器人提供智慧大脑 4,更强的垂直行业应用 三、回顾一下GPT5被紧急叫停&…

AI已经成立社区了,一个个比真人还真

文章目录 nainaimichirper川普的入驻英文版 nainaimi nainaimi是一个13岁的学生,一小时前,被一群人拖到体育馆, 那时的她还很胆小,只能哭诉着那些人的残忍和恶毒 结果半个小时前,她又被拖入了体育馆,这一…

分布式补充技术 01.AOP技术

01.AOP技术是对于面向对象编程(OOP)的补充。是按照OCP原则进行的编写,(ocp是修改模块权限不行,扩充可以) 02.写一个例子: 创建一个新的java项目,在main主启动类中,写如下代码。 package com.co…

基于无人机辅助边缘计算系统的节能卸载策略

源自:《系统工程与电子技术》 作者:余雪勇 朱烨 邱礼翔 朱洪波 摘 要 针对复杂地形中地面基础设施无法有效提供可靠通信和密集算力的问题,首先提出一种基于无人机(unmanned aerial vehicle, UAV)托管计算资源的卸载方案。考虑用户终端的计算需…

西门子PLC如何实现1主多从网口无线通讯

常规来说,多台plc要实现以太网无线连接,首先要先确定以太网线必须正确连接,并建立物理连接。然后需要在PLC端设置好IP地址,以使不同PLC以相同协议可以实现通信交流。最后是建立PLC端数据采集及交换系统,要求在PLC端设置…

直播和短视频美颜sdk的开发流程、代码分析

目前,美颜技术是提高视频质量的重要手段之一,特别是短视频和直播两个行业。本文将介绍其开发流程和代码分析。 一、美颜SDK的开发流程 1.需求分析 首先我们需要明确的一点就是“需求”,例如:美颜效果、美颜程度、性能要求等。同…

【JavaScript】线程和进程,JavaScript线程,事件队列,事件循环 ,微任务、宏任务

❤️ Author: 老九 ☕️ 个人博客:老九的CSDN博客 🙏 个人名言:不可控之事 乐观面对 😍 系列专栏: 文章目录 进程和线程JavaScript线程事件队列、事件循环微任务、宏任务面试题1面试题2 进程和线程 进程&a…

Netty核心技术二--BIO编程

1. I/O模型 I/O 模型简单的理解:就是用什么样的通道进行数据的发送和接收,很大程度上决定了程序通信的性能 Java共支持3种网络编程模型/IO模式:BIO、NIO、AIO Java BIO :同步并阻塞(传统阻塞型),服务器实现模式为一个…

C++13-STL模板

C13-STL模板 在线练习: http://noi.openjudge.cn/ https://www.luogu.com.cn/ 大纲要求 【 3 】算法模板库中的函数:min、max、swap、sort 【 4 】栈 (stack)、队列 (queue)、链表 (list)、 向量(vector)等容器 1.函数模板 泛…

1.2 IAR 环境配置及编译

目录 一. 新建源码文件夹 二. 添加源文件到工程中 三. 编写一个简单的测试程序 四. 设置字体和行号 五. 工程配置 六. 编译链接工程 一. 新建源码文件夹 (1)在保存工作空间和工程的目录下,新建一个code文件夹,用于保存源码&…

突破极限:YOLO9000 论文解读 - 构建更好、更快、更强大的实时检测系统

YOLOv2 论文全篇完整翻译 摘要 我们介绍了YOLO9000,这是一种先进的、实时的目标检测系统,可以检测超过9000个物体类别。首先,我们对YOLO检测方法进行了各种改进,包括新颖的方法和借鉴自先前工作的方法。改进后的模型YOLOv2在标准…

实验四 车辆定位导航

有想自己动手的同学可在末尾看教程 【实验目的】 1、了解全球定位导航系统的定位原理和电子地图技术,掌握电子地图API使用方法。 2、了解导航数据报文数据格式,解析导航数据并在电子地图上进行导航应用。 【实验性质】 验证性实验。 【实验要求】 1、相…

自抗扰PID(梯形图源代码)

有关ADRC的详细算法和源代码,请参看专栏的系列文章,这里不再赘述,常用链接如下: ADRC自抗扰控制算法(含梯形图完整源代码和算法公式)_adrc算法_RXXW_Dor的博客-CSDN博客PLC的自抗扰控制(ADRC)算法_RXXW_Dor的博客-CSDN博客_adrc算法1、自抗扰控制算法,网上很多文章有所…

数据仓库漫谈-前世今生

数据仓库的内容非常多,每一个子模块拎出来都能讲很久。这里没法讲太多细节,大致思考了三个备选议题: 数据仓库的前世今生 数据仓库体系知识介绍 数仓开发者的路在何方? 既然是第一次分享,感觉还是跟大家普及下数仓的…

浏览器数据存储方式

浏览器数据存储方式 常用的前端数据存储方法笼统来说有 3 种: local/session storagecookiesindexeddb 3 种方法各有各的优点和使用范围。 local/session storage local/session storage 保存的格式都为键值对,并且用法都是差不多,如下&…