2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛—— C 题:竞赛论文的辅助自动评阅完整思路与源代码分享

一、问题背景
近年来我国各领域各层次学科竞赛百花齐放,层出不穷,学生参与度也越来越高。随着参赛队伍的增 加,评阅论文的工作量急剧增加,这对评阅论文的人力要求也越来越大。因此引入机器辅助评阅成为竞赛主办方的现实需求。 在学术界,建立基于 AI 的学术论文自动评审模型已得到了许多研究者的关注。论文的自动评阅涉及多 种传统的自然语言处理技术如文本分类、信息抽取、论辩挖掘等。近年来,随着深度学习和自然语言处理技术的不断发展,特别是以 GPT 为代表的大语言模型的出现,进一步促进了论文自动评阅技术的发展,使得利用 AI 进行文本的自动评阅变得越来越可行,逐步从实验室走向学校和更多组织机构,成为当前的技术热点。但是在特定领域实现论文自动评阅仍然存在很多挑战,需要利用预训练的大语言模型适配具体的应用场景 来解决问题。

二、解决问题

1、构造论文质量特征

每个指标的分数范围为 0-10 分。

(1)论文的完整性评价

对照赛题,比对竞赛论文中相关问题的章节或段落,对论文的完整性进行评价。评估竞赛论文是否能完整解答赛题,并给出评价论文完整性的技术手段和评分标准。

(2)论文有无实质性工作

对照赛题评阅要点,查找竞赛论文中相关问题的章节或段落,考察论文是否就赛题问题做出了相关的研究。需给出相关的技术方法和评价标准。

(3)摘要质量

摘要与内容的一致性评价。评价摘要是否如实反映正文的中心思想,即衡量内容摘要与正文的相关性、一致性。需给出摘要质量评价指标及其依据。

(4)写作水平评价

评价文字流畅性、写作规范(图、表、摘要)性和论文逻辑性。在传统论文评分(essay scoring)技术基础上,从文本通顺、立意分析、篇章结构、论证挖掘等维度进行探索,挖掘文本蕴含的论点论据、论证关系、结构信息,结合论证挖掘角度评估论文一致性、逻辑性,综合给出论文写作水平的评分。(完整附件见文末!)

  1. 数据预处理:首先,我们需要从PDF文件中提取出每篇论文的文本内容。
  2. 建立问题模板:针对每个要评估的指标(完整性、实质性工作、摘要质量、写作水平),我们需要设计适当的问题模板,确保向ChatGPT提出的问题能够得到有意义的回答。问题模板应该具有明确的语义,以便ChatGPT理解并给出相关的回复。
  3. 调用ChatGPT接口:利用建立的问题模板,我们向ChatGPT接口发送请求,将论文内容作为输入,并期待ChatGPT生成针对每个问题的回答。我们可以设置合适的参数来确保生成的回答质量和相关性。
  4. 解析回答结果:得到ChatGPT生成的回答后,我们需要解析这些结果,并将其转化为数值化的评分。这可能涉及到自然语言处理技术,例如情感分析、语义理解等,以确保对回答的准确解读。
  5. 综合评估:在对每个指标进行评估后,我们需要将各个指标的评分综合起来,得到每篇论文的综合评分。这一步可以根据不同指标的重要性进行加权处理,以确保综合评分更加准确地反映论文的整体质量。

结果:

2、竞赛论文辅助评分

根据上面构造的各项评分指标建立论文的整体评分模型,根据提供的论文集,按照十分制给出每篇论文的综合评分,将结果保存到 result.xlsx 文件中。综合评分结果要求满足如下限制条件:8-10 分的不超过 3%;6-7 分的不少于 10%,6-10 分不超过 15%;4-5 分不少于 20%,4-10 分不超过 35%;其他的为 0-3 分。一般而言,在综合评分中论文的完整性和写作水平的分数占比之和不超过 40%。(完整附件见文末!)

1.计算每篇论文的综合评分:

对每篇论文进行完整性、实质性工作、摘要质量和写作水平等方面的评分,可以利用之前构造的评分函数来完成。

根据评分指标的重要性,可以为每个评分指标设置合适的权重,然后对各项评分进行加权求和,得到每篇论文的综合评分。

2.根据评分要求进行限制:

根据给定的评分要求,确定各个评分区间的数量限制,例如8-10分的不超过3%,6-7分的不少于10%,以及4-5分的不少于20%等。

遍历每篇论文的综合评分,根据评分要求对评分进行调整,确保满足数量限制。

3.检查评分结果:

检查所得的评分结果,确保满足了给定的评分要求,并且符合预期的逻辑。

附件:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/465695.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

System Verilog的接口、程序块与断言解析

接口、程序块与断言 1 接口 1.1 使用接口简化连接 // 接口 interface arb_if(input bit clk);logic [1:0] grant,request;logic rst; endinterface// 使用了简单接口的仲裁器 module arb (arb_if arbif);...always(posedge arbif.clk or posedge arbif.rst)beginif(arbif.rs…

计算方法实验1:圆形镜面成像问题

Algorithm Description 设 T ( c o s θ , s i n θ ) T(cos\theta,sin\theta) T(cosθ,sinθ),则有 P T Q T ( P x − c o s θ ) 2 s i n 2 θ ( Q x − c o s θ ) 2 ( Q y − s i n θ ) 2 PTQT\sqrt{(P_x-cos\theta)^2sin^2\theta}\sqrt{(Q_x-cos\theta)^2(Q_y-sin…

苹果Apple Watch将有更多新手势,智能穿戴将被赋予Find My功能

根据美国商标和专利局(USPTO)公示的清单,苹果公司获得了一项 Apple Watch 相关技术专利,表明苹果公司正在探索更多的交互手势。 苹果在 watchOS 10.1 更新中,为 Apple Watch 引入了全新的“双指互点两下”手势&#…

智慧公厕对于智慧城市管理的意义

近年来,智慧城市的概念不断被提及,而智慧公厕作为智慧城市管理的重要组成部分,其在监测、管理和养护方面发挥着重要的作用。智慧公厕不仅是城市市容提升的重要保障,还能提升城市环境卫生管理的质量,并有效助力创造清洁…

unity学习(61)——hierarchy和scene的全新认识+模型+皮肤+动画controller

刚刚开始,但又结束的感觉? 1.对hierarchy和scene中的内容有了全新的认识 一定要清楚自己写过几个scene;每个scene之间如何跳转;build setting是add当前的scene。 2.此时的相机需要与模型同级,不能在把模型放在相机下…

服务器开机不输入密码自动进系统, 与设置开机启动项

打开运行[win R ] 输入: control Userpasswords2设置开机启动项 运行 输入 shell:startup在这里插入图片描述

java垃圾回收-三色标记法

三色标记法 引言什么是三色标记法白色灰色黑色 三色标记过程三色标记带来的问题多标问题漏标问题 如何弥补漏标问题增量更新原始快照总结 引言 在CMS,G1这种并发的垃圾收集器收集对象时,假如一个对象A被GC线程标记为不可达对象,但是用户线程又把A对象做…

【C++】手撕红黑树

> 作者简介:დ旧言~,目前大二,现在学习Java,c,c,Python等 > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:能直接手撕红黑树。 > 毒鸡汤:行到…

Armv8状态寄存器

Processor state AArch64没有与ARMv7当前程序状态寄存器直接对应的寄存器(CPSR)。在AArch64中,传统CPSR的组件以字段的形式提供可独立访问。这些统称为处理器状态(PSTATE)。 在AArch64中,通过执行ERET指令从异常中返回,这会导致要拷贝到PSTAT…

软件测试相关内容第四弹 -- 测试用例与测试分类

写在前:我们已经掌握了关于软件测试的相关内容,知道了基本的测试过程,在做了一段时间的基础测试,熟悉了相关的业务后,测试人员会进行测试用例的编写,在日常测试中,也需要补充测试用例到现有的案…

PyTorch深度学习实战(39)——小样本学习

PyTorch深度学习实战(39)——小样本学习 0. 前言1. 小样本学习简介2. 孪生网络2.1 模型分析2.2 数据集分析2.3 构建孪生网络 3. 原型网络3. 关系网络小结系列链接 0. 前言 小样本学习 (Few-shot Learning) 旨在解决在训练集中只有很少样本的情况下进行分…

常见的十大网络安全攻击类型

常见的十大网络安全攻击类型 网络攻击是一种针对我们日常使用的计算机或信息系统的行为,其目的是篡改、破坏我们的数据,甚至直接窃取,或者利用我们的网络进行不法行为。你可能已经注意到,随着我们生活中越来越多的业务进行数字化&…

python知识点总结(三)

python知识点总结三 1、有一个文件file.txt大小约为10G,但是内存只有4G,如果在只修改get_lines 函数而其他代码保持不变的情况下,应该如何实现? 需要考虑的问题都有那些?2、交换2个变量的值3、回调函数4、Python-遍历列表时删除元素的正确做…

3/14/24数据结构、线性表

目录 数据结构 数据结构三要素 逻辑结构 存储结构 数据运算 时间复杂度 空间复杂度 线性表 线性表定义 静态分配 动态分配 线性表插入 线性表删除 十天的时间学完了C语言督学课程,最后终于是可以投入到408的科目学习当中。关于数据结构和算法的学习很多部…

智慧城市物联网建设:提升城市管理效率与居民生活品质

目录 一、智慧城市物联网建设的意义 1、提升城市管理效率 2、改善居民生活品质 3、促进城市可持续发展 二、智慧城市物联网建设面临的挑战 1、技术标准与互操作性问题 2、数据安全与隐私保护问题 3、投资与回报平衡问题 三、智慧城市物联网建设的实施策略 1、制定统一…

【Qt】Qt中的常用属性

需要云服务器等云产品来学习Linux可以移步/-->腾讯云<--/官网&#xff0c;轻量型云服务器低至112元/年&#xff0c;新用户首次下单享超低折扣。 目录 一、QWidget属性一览 二、属性enabled(可用状态) 三、属性geometry(修改位置和尺寸) 1、QRect类型的结构 2、geome…

实用工具推荐----Mocreak Win Office 自动部署(激活+安装)

Mocreak 该工具包含功能 一键快速下载、安装、激活最新版 Microsoft Office 软件。用户可在安装 Word、PPT、Excel 的同时&#xff0c;根据软件提示&#xff0c;自助安装其它组件&#xff0c;包括&#xff1a; Outlook、OneNote、Access、Visio、Project、Publisher、Teams、…

Python图像处理:3.七种图像分割方法

一、常见图像分割方法 (1)传统算法 阈值分割&#xff08;Thresholding&#xff09;&#xff1a;这是最简单也是应用最广泛的一种分割方法&#xff0c;通过选定一个阈值将图像转换为二值图像&#xff0c;从而分割出目标区域。这种方法适用于图像的前景和背景对比明显的情况。 …

PWM驱动舵机

PWM驱动舵机 接线图 程序结构图&#xff1a; pwm.c部分代码 #include "stm32f10x.h" // Device headervoid PWM_Init(void){// 开启时钟&#xff0c;这里TIM2是通用寄存器RCC_APB1PeriphClockCmd(RCC_APB1Periph_TIM2,ENABLE);// GPIO初始化代…

基于JavaWeb+SSM+Vue“鼻护灵”微信小程序系统的设计和实现

基于JavaWebSSMVue“鼻护灵”微信小程序系统的设计和实现 滑到文末获取源码Lun文目录前言主要技术系统设计功能截图 滑到文末获取源码 Lun文目录 摘 要 3 Abstract 1 1 绪 论 1 1.1研究背景 1 工作的效率。 1 1.2 研究意义 1 1.3研究现状 1 1.4本文组织结构 2 2 技术介绍 3 2…