摘要:
教育是一个复杂而微妙的领域;有效的教学涉及对学生认知的推理,并应反映学生的学习目标。基础模型的性质在这里提出了在人工智能教育领域尚未实现的承诺:虽然教育中的某些许多数据流单独地过于有限,无法训练基础模型,但利用域外相关数据的能力(例如,互联网),并利用跨多种形式的数据(例如,教科书、数学公式、图表、基于视频的教程)共同为广泛适用于教育任务的基础模型提供了希望。如果基础模型导致教育相关能力的显著改善,那么与开放式生成(例如,问题生成)和交互式(例如,反馈给教师)方面的基础模型;样本的基础模型的有效适应表明更大的能力,适应性和个性化的学习。在这种情况下,需要重新考虑将技术应用于教育的标志(例如,学生隐私),沿着某些关注变得更加关键(例如,教育中获得技术的机会不平等,技术辅助剽窃)。
2000年,世界领导人在联合国千年首脑会议上举行了最大规模的聚会,以思考对未来的理想愿景。代表们得出结论认为,教育应是首要重点,并宣布教育是“人类成就、和平、可持续发展、经济增长、体面工作、性别平等和负责任的全球公民的基础。这一讨论最终被重新定义为联合国可持续发展目标,以“确保全民包容和优质教育,促进终身学习”。然而,大规模提供高质量的全纳入教育带来了严峻的社会和经济挑战。每个学生的教育成本增长速度快于整个经济成本,限制了可用于支持学生学习的资源。在美国,一个症状是学生持有的私人教育债务已达到1.6万亿美元,超过了信用卡债务总额。考虑到提供成人再培训的需求不断增加,对教育的需求与我们提供教育的能力之间的差距之大令人震惊,在受保护的人口中存在着令人担忧的成就差距。
随着数字时代的到来和数字学习的快速发展,计算教育方法在提高学习者和教师的效率方面显示出了希望。几个核心方向已经成为人工智能在教育中潜在的有影响力的应用,例如可以为学生提供有意义的反馈,帮助教师提高,甚至可以创建个性化和自适应的学习体验,根据学生的需求和性格定制学习过程。
图 教育中的基础模型可以在多个数据源上进行培训,以学习教育所需的能力:了解各种主题和不同的教学方法。这些基础模型可以以通用的方式应用于一系列任务和目标,例如理解学生,协助教师和生成教育内容。
尽管有这种潜力,但事实证明,建立技术解决方案以有效地扩大包容性和提高教育质量是非常困难的。一个特别的挑战是,现有的工作集中在高度特定的任务的定制解决方案,大量的训练数据必须从头开始收集。由于创建大型数据集的难度和成本,使用这种方法独立解决每个教育任务从根本上受到限制。相反,是否有可能创建跨各种任务和主题可重用的通用方法?基础模式已经开始提高教育领域一些具体旗舰任务的绩效。最近的例子包括使用MathBERT 来支持“知识追踪”--在给定学生过去的反应的情况下,随着时间的推移追踪学生的理解的挑战--以及“反馈挑战”,其中算法必须解释学生对结构化开放式任务的回答,例如编码问题。基础模型能在这个领域带来更多的变革吗?应用于教育的基础模型的已知和想象的风险是什么?在本文中,我们首先围绕道德考虑展开对话。然后,我们的讨论在两个具体的任务:(1)理解学生的误解,(2)通过教学提高学生的理解。
1. 教育研究中以基础模型为中心的重要关注点
人工智能教育的未来令人兴奋,特别是在基础模型的背景下。然而,我们提醒读者要特别考虑任何人工智能研究应用于教育的影响。在我们积极努力改善数字教育的同时,我们必须投入大量的思考来尝试和想象这个领域中任何破坏的复杂性。伦理挑战包括数据偏见、法律的限制以及数字社交的影响等问题。这些问题并不是基础模型所独有的,但随着人工智能教育研究取得实质性进展,它们值得定期反思。当研究开始问“新的人工智能技术能负担得起什么?
“第5.6节中的许多问题:道德适用于教育。例如,与许多其他领域一样,基础模型训练数据中的小偏差可能很难追踪,但对教育机会的公平性有重要影响。此外,这些系统可能会经历高度的“反馈”,其中收集的数据不断加强模型的决策。这个偏见问题超出了收集数据的范围,还包括对研究人员选择研究的应用程序的担忧。下面,我们讨论其他教育特定问题。许多问题都围绕着一个问题:“谁受益?“新技术是为谁而创造的?
1.1 无教师教学
数字教育的目标之一,特别是基于人工智能的数字教育,是提高学习体验的生产力,以便在单位时间或单位成本内进行更多的学习。可以想象,决策者可以利用这种提高的生产力,将人类教师从循环中移除。这种决定的长期影响很难先验地知道。与一个优化的教育系统互动,对社会情感技能的发展有负面影响吗它是否会减少与他人互动的机会?年轻一代的孤独感正在上升,教师是人工智能研究人员可能无法想象的压力的调节力量。
1.2 工作是由学习者还是基础模型完成的?
另一个挑战是如何有效地教学生谁可以访问基于基础模型的工具。例如,如果学生与一个强大的生成模型一起工作,教师要了解学生的贡献程度,或者规范无效的合作和检测剽窃,将变得更加复杂。Visual Studio最近发布了GitHub CoPilot,这是一个基于GPT-3的AI配对程序员。这将如何改变计算机科学教育?对于初学者程序员来说,许多挑战对于CoPilot或其技术继承者来说可能是微不足道的,这可能会破坏新手的学习体验。研究其他一些技术进步扰乱某些学科教育的例子会很有启发性,比如数学教室里的计算器和语言课程中的谷歌翻译,这两种技术现在都与传统教学共存。
1.3 隐私和安全
在教育中使用人工智能的一个重要的伦理问题是强调了严格的法律的指导方针,涉及学生工作的隐私。例如,在美国,学生信息受到家庭教育权利和隐私法(FERPA)的保护。这些法律法规对13岁以下的儿童尤其重要,他们的数据隐私和安全受到《儿童在线隐私保护法》的额外保护。除其他外,FERPA限制教师分享个人身份的学生工作。这可能会直接影响共享用于培训和评估基础模型的数据的举措。此外,还有一个悬而未决的问题,即基础模型的权重是否会以某种方式泄露其训练的(可能是私有的)数据。这些问题及其相应的方法类似于第3.1节:医疗保健中描述的挑战。
此清单并非详尽无遗,道德考虑因素因项目而异。
2. 学生思维的基本模式
在为包容性和快乐的教育构建人工智能工具时,有许多任务可以使用基础模型。其中许多任务要求我们首先了解我们试图帮助的学习者,特别是在开放式工作的背景下。
一个基础模型需要什么才能对学生的理解能力进行推理判断?很容易想象一个基础模型,它已经被调整为正确回答数学问题,但它是不太清楚如何建立一个模型,可以诊断学生的答案的基础上,学生的理解错误。为了探索这个主题,我们考虑了一个案例研究,为正在进行开放式任务的学生提供反馈,这些任务包括写一个小段落,绘制物理图表或编写代码。这个“反馈挑战”说明了基础模型如何对学习者有帮助,也展示了基础模型研究的开放领域。
为了有效地向学生提供反馈,需要两个核心能力:(1)理解任务的主题(例如,物理学或编码),以及(2)“注意”的诊断能力:教育中的一个技术术语,用于推断学生为什么会犯错误。对于典型课堂中的典型学生交互,没有足够的数据让人工智能模型从头开始学习这两个核心功能。即使对于拥有数百万学生的大型课程,监督算法也几乎无法理解即使是简短的四行程序背后的复杂学生推理。因此,反馈任务本质上需要从外部数据和经验中转移理解。
目前存在的基础模型直接有助于第一种能力:理解特定的主题。例如,当学习对简短的编程问题提供反馈时,像GPT-3这样的基础模型可以通过几个示例有效地理解流畅的代码。这方面的一些研究已经开始探索基础模型,这些模型可以快速适应新主题领域的问题。同样,基础模型也可以集成多种信息模式,例如任务提示的文本、问题中的图表,甚至是提供给教学助理的评分规则的内容。这种统一的表示能力可以帮助基础模型通过更丰富的信息源来理解主题。作为一个具体的案例研究,这些见解中的许多都被用作算法的核心组件,该算法能够在斯坦福大学对入门计算机科学期中考试进行评分,其有效性与人类教学助理相同。在这种情况下,主题编码是建立在一个基础模型上的,该模型已经在GitHub代码和每个问题的主题的相应小数据集上进行了调整。一般来说,我们可以想象利用各种数据源来使基础模型适应不同的主题。例如,数学适应可以使用数学网站或教科书或Gradescope等平台上的历史学生答案;口语理解可以利用广播档案或播客;创意写作等领域可以参考大型数字档案,如古滕贝格项目。
与主题相反,将基础模型应用于将观察到的错误映射到学生思维过程中的缺陷的任务,则很少得到很好的探索。教师“注意到”学生犯特定错误背后的原因的能力是反馈挑战的关键组成部分。想象一下,例如,一个学生学习两位数加法,他回答了一个问题:“26 + 19是多少?”315.“花点时间,试着猜一猜他们为什么给出这个答案,以及他们有什么误解。这种注意能力可以被视为基础模型的适应任务,或者甚至是推理任务。
虽然很难,但训练人工智能系统注意到是一个可以实现的目标。在课堂上,在给定领域的学习任务中,学生如何得出答案有可推广的模式。可以直接用于这种适应任务的标记数据,例如中对学生工作的教师书面反馈,通常由教师在不同的数据集中私下持有。然而,公共可访问的数据,如StackOverflow交互,也可以创造性地用于调整基础模型以引起注意。一些研究还探索了从教师那里提取学生如何犯错误的生成描述的有效方法 -这些手写的生成模型也可以用于生成适应数据,以帮助基础模型诊断学生的错误。
3. 教学基础模型
对学生理解能力的推理判断是实现第二个目标的重要一步:提供包容性的高质量教学。教学的计算方法专注于不同的任务,如内容个性化,问题生成,自适应课程设计,以及预测教师干预。在这一小节中,我们将讨论基础模型如何在教授学生的过程中发挥作用。
由于有效的教学需要推理判断学生的理解能力,因此前面关于理解主题和“注意”的讨论是非常相关的。然而,提供有效的教学需要额外的能力:理解教学法。这包含了对指导学生的技术的有效理解,例如问苏格拉底式的问题或提供类比/对比案例;使用鼓励或支持性的语言;为学生量身定制问题的难度;并生成与学生的兴趣和背景相关的例子。
如何调整基础模型,以便于理解良好的教学方法?一个想法是考虑使用数据源进行自适应,其中指令是主要角色。例如,来自像StackOverflow这样的问答论坛的数据可以用来构建一个可以模仿常见苏格拉底问题的导师。类似地,一个基于维基百科等百科全书的基础模型可能能够给予学生问题的答案,这些答案(通常)是事实上正确的。还有一些公共数据源,如教科书、讲座视频、课程计划和分级反馈,它们共同包含了重要的教学行为,可以通过基础模型进行调整(图15)。
基于基础模式的教学的另一个适应性挑战是学习如何像教师一样与学生交谈。教师使用的语言往往不同于一般人使用的语言。教师经过理想的培训,以尊重的方式与学生交谈,并有意帮助他们对正在学习的主题形成积极的认同。微软2016年的Twitter机器人“Tay”是一个值得警惕的例子,它是一个聊天机器人,在现场部署后24小时内就开始产生仇恨言论,这向我们展示了在教育中明确考虑这一因素的重要性。为了训练一个受课堂专业教师影响更大的语言模型,我们也许可以将基础模型应用于讲座视频或录制的办公时间视频等数据源。不同的教育背景在适当的语言类型上有很大的不同,这使得上述适应问题变得更加复杂:例如,五年级科学课的有效教学与大学物理课的教学大不相同,更不用说大学文学课了。这提出了超出典型的NLP域转移设置所面临的技术挑战(例如,基于新闻文章与Reddit帖子的问答),因为基础模型需要在语气和语言方面具有流畅的适应性,而不仅仅是它生成的事实内容。
除了良好的教学技术和教学语言,基础模型如何提供更有见地的教学形式?这篇论文的语言强调了一个事实,即婴儿可以在很短的时间内获得非常复杂的语言。正如作者所指出的,基础模型训练和人类语言习得之间的一个显著区别是,“人类语言是基于真实的世界的:例如,婴儿的看护人在谈论物体时会指向它们。“同样的见解也可以启发如何将基础模型用于生成教育的想法。当面对现实世界的类比和对比时,人类似乎学得很好,这些类比和对比可能是他们当前环境和过去经验之间的交叉。例如,在教授手语时,教师可能会使用一个类比,如“'早晨'这个词的手形看起来像太阳升起”,或者注意到“你刚刚做的手形看起来与另一个词非常相似,所以让我们专注于差异。“另一个例子是,在向一个已经懂阿拉伯语和英语的学习者教授斯瓦希里语时,教师可以指出斯瓦希里语中表示的单词(发音为nane)是一个“假朋友”,在发音上与英语中表示的单词(发音为9)相似。可以整合多模态数据的基础模型有可能进行这些丰富的类比和比较,这在儿童语言学习中是典型的。