2024年数学建模美赛C题(预测 Wordle)——思路、程序总结分享

1: 问题描述与要求

《纽约时报》要求您对本文件中的结果进行分析,以回答几个问题。

问题1:报告结果的数量每天都在变化。开发一个模型来解释这种变化,并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。这个词的任何属性是否会影响报告的在困难模式下播放的分数的百分比?如果是这样,如何?如果不是,为什么不呢?

问题2:对于未来日期的给定未来解决方案词,开发一个模型,使您能够预测报告结果的分布。换句话说,预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。哪些不确定性与您的模型和预测相关?举一个你对2023年3月1日EERIE这个词的预测的具体例子。你对你的模型的预测有多自信?

问题3:开发并总结一个模型来按难度对解决方案单词进行分类。识别与每个分类关联的给定词的属性。使用您的模型,EERIE这个词有多难?讨论分类模型的准确性。

问题4:列出并描述这个数据集的其他一些有趣的特征。

2: 解题思路和分析结果(详解版)

针对问题1

思路:该问题主要是预测一个序列的变化趋势,而且该数据的变化趋势是统计的每天的数据,所以可认为是一个时间序列。数据的波动如下:

待预测数据的波动情况

分析该数据的随时间的变化趋势,可以发现是先上升、然后在下降的趋势,比较符合一个热点产生后,迅速得到关注,然后在逐渐降低热度,最后关注度保持稳定的情况。

针对该数据中末尾的最低点如何处理:该点可能是正确的数据(也可能是错误的,比如:录入错误)。所以可以做处理,也可以不错处理。处理方法,最简单的方法是使用最低点前后N(n=1,2,...)个数值的均值进性改进。

针对序列的预测方法:

(1)时间序列累预测方法:建议忽略到前半段,对下降的趋势进行时间序列建模与分析(也可用群不数据),可能效果较好。模型可以是:ARIMA、prophet等预测算法,prophet效果会好于ARIMA。

prophet算法预测

(2)考虑非线性回归方程:可以使用全部的数据建立,也可以使用数据下降趋势的后半段。

非线性回归方程

对于分析词的任何属性是否会影响报告的在困难模式下播放的分数的百分比的情况。主要的检验方法就是单因素方差分析,而且也要对词语一行清洗与与处理的改正操作。

针对问题2

目的1: 预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。

目的2: 对2023年3月1日EERIE这个词进行预测。

该问题是一个典型的有监督的数据回归问题,可以使用的方法有很多,而且针对数据的情况,可以先对数据进行特征工程,可以使用的特征例如:时间信息、每个位置的字母信息、词的属性信息等。可使用的预测算法也很多,例如:决策树、随机森林、GBDT、SVM、神经网络等。经过我的验证,使用随机森林或者GBDT的预测效果较好。

在数据与处理操作阶段,可以剔除一个累计正确率较离谱的样本,入下面的图所示:

累计正确率

对2023年3月1日EERIE这个词,一个可以参考的预测结果为:

(1, 2, 3,  4, 5,  6, X) 的相关百分比预测值分别为 (1, 5, 17, 32, 27, 12, 3)

针对问题3

目的1: 按难度对解决方案单词进行分类,并且根据单词的相关特征,为分类结果进行定级。

目的2: 对2023年3月1日EERIE这个词进行预测。

该问题属于一个无监督的聚类问题。而且针对该问题进行聚类是,使用的特征很关键。可以使用(1, 2, 3,  4, 5,  6, X) 的相关百分比作为特征建立聚类模型,而且聚类的算法有很多,例如:K均值、K中值、模糊聚类、系统聚类等。而且聚类的数量也有讲究。经过我的详细研究,聚类为3类,可能效果跟好一些。

聚了i结果可视化

聚类模型确定好后,对EERIE这个词进行预测即可。

针对问题4

该问题是一个开放性的问题,可以进行一些数据可视化分析等,便于发现数据的关系。并且可以结合前面三问的到的结果进行分析。例如:使用关联规则,可以发现单词中有哪些字母的情况下,属于哪个难度类别等。

发现的一些规则

总结

前面的一些分析,都是本人使用Python,对数据一步步分析得出的一些经验,供大家参考,并不能完全保证是正确的。数学建模本身就是开放性问题,这里知识抛砖引玉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/354648.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java TemporalAdjusters 时间调节器

提供了非常多处理日期相关的函数: 使用示例: /*** JCccc* param args*/public static void main(String[] args) {DateTimeFormatter pattern DateTimeFormatter.ofPattern("yyyy-MM-dd");LocalDateTime now LocalDateTime.now();//获取当月…

web前端项目-实现录音功能【附源码】

录音功能 运行效果&#xff1a;本项目可实现录音软件的录音、存储、播放等功能 HTML源码&#xff1a; &#xff08;1&#xff09;index.html&#xff1a; <!DOCTYPE html> <html><head><meta http-equiv"Content-Type" content"text/h…

java日志框架总结(三 、Log4j日志框架)

一、简介 Log4j ( Logger For Java ) , Java 日志的记录包。 官方网站 。Log4j 是 Apache 的一个开源项目&#xff0c; 为Java提供了日志记录功能。能够让程序员非常方便的记录日志&#xff0c; 并且提供了多种适配方式&#xff0c;能满足各种需求。 使用Log4j 只需要导入一个…

【时序预测】2、prophet:Forecasting at Scale | Python 文档教程

文章目录 一、Quick Start二、饱和预测2.1 Forecasting Growth 预测增长2.2 Saturating Minimum 饱和最小值 三、Trend Changepoints 趋势变化点3.1 Automatic changepoint detection in Prophet 自动检测变化点3.2 Adjusting trend flexibility 调整趋势灵活性3.3 Specifying …

从零开始做题:逆向 ret2shellcode orw

1.题目信息 BUUCTF在线评测 下载orw时防病毒要关闭 2.题目分析 orw是open、read、write的简写。有时候binary会通过prctl、seccomp进行沙箱保护&#xff0c;并不能getshell。只能通过orw的方式拿到flag。 fdopen&#xff08;‘./flag’); # 打开flag文件&#xff0c;得到fd…

线程调度(Java Android)

关于作者&#xff1a;CSDN内容合伙人、技术专家&#xff0c; 从零开始做日活千万级APP。 专注于分享各领域原创系列文章 &#xff0c;擅长java后端、移动开发、商业变现、人工智能等&#xff0c;希望大家多多支持。 未经允许不得转载 目录 一、导读二、概览2.1、线程的属性 三、…

HTTP服务器基础认识(复习)

鉴于曾经写过相关文章&#xff0c;这里就不再详细介绍了&#xff0c;关于详细的介绍可以参考我之前的文章 HTTP协议初识中篇-CSDN博客 一个简单的设置套接字的过程&#xff0c;也当成是复习一下下了 代码 #include <iostream> #include <cstdio> #include <…

Redis的数据类型

目录 string 1.编码方式 2.应用场景 3.常用命令 hash 1.编码方式 2.应用场景 3.常用命令 list 1.编码方式 2.应用场景 3.常用命令 set 1.编码方式 2.应用场景 3.常用命令 zset 1.编码方式 2.应用场景 3.常用命令 如何理解Redis的编码方式 embs…

2024三掌柜赠书活动第七期:一本书读懂AIGC:探索AI商业化新时代

目录 前言AI商业化的背景和挑战关于《一本书读懂AIGC&#xff1a;探索AI商业化新时代》编辑推荐内容简介作者简介图书目录书中前言/序言《一本书读懂AIGC&#xff1a;探索AI商业化新时代》全书速览结束语 前言 不用多讲&#xff0c;想必大家也都知道&#xff0c;人工智能在过…

k8s-基础知识(Service,NodePort,CusterIP,无头服务,NameSpace,资源限制)

Node Node 是 Pod 真正运行的主机&#xff0c;可以是物理机&#xff0c;也可以是虚拟机。 Annotations 原文链接 Annotations 是 key/value 形式附加于对象的注解。不同于 Labels 用于标志和选择对象&#xff0c;Annotations 则是用来记录一些附加信息&#xff0c;用来辅助应…

【标定】多源LiDAR传感器标定方法(含C++代码)

提供的代码是一种使用平面提取和匹配以及随后的Ceres Solver库优化转换的LiDAR标定方法的全面实现。这种方法用于对齐多个LiDAR传感器的数据,比如那些安装在车辆或机器人不同位置的传感器,以确保它们生成的点云在同一坐标系统中。 以下是对代码及其实现的标定方法的介绍: 利…

linux虚拟化之kvm(一个200行的arm64虚拟机代码)

一、背景 之前介绍了X86上的一个简易虚拟机&#xff1a; linux虚拟化之kvm&#xff08;一个150行的x86虚拟机代码&#xff09;-CSDN博客 &#xff0c;但作为一名嵌入式开发者&#xff0c;还是需要在ARM64上尝试一番&#xff0c;ARM64上的虚拟化和X86还是有很多差异点&#x…

nosql数据库知识点总结

目录 1、什么是nosql数据库&#xff0c;它包括哪些 文档数据库 建数据 哪一种是最简单的 2、什么是文档数据库 3、创建mongodb时默认会建造三个数据库&#xff0c;是哪三个 4、mongodb支持的数据类型有哪些 5、它的常规语句有哪些 6、副本集和分片集有什么作用 复制 …

​​力扣刷MySQL-第九弹(详细讲解)

&#x1f389;欢迎您来到我的MySQL基础复习专栏 ☆* o(≧▽≦)o *☆哈喽~我是小小恶斯法克&#x1f379; ✨博客主页&#xff1a;小小恶斯法克的博客 &#x1f388;该系列文章专栏&#xff1a;力扣刷题讲解-MySQL &#x1f379;文章作者技术和水平很有限&#xff0c;如果文中出…

Spring 事务原理二

该说些什么呢&#xff1f;一连几天&#xff0c;我都沉溺在孤芳自赏的思维中无法自拔。不知道自己为什么会有这种令人不齿的表现&#xff0c;更不知道这颗定时炸弹何时会将人炸的粉身碎骨。好在儒派宗师曾老夫子“吾日三省吾身”的名言警醒了我。遂潜心自省&#xff0c;溯源头以…

20240128-读书带来的影响

我本身不算是一个特别喜欢读书的人&#xff0c;更多的时候其实是为了读书而读书。在坚持每天读了一小时书之后&#xff0c;我发现自身开始慢慢有些变化。是什么时候突然有了这种感悟呢&#xff0c;是最近每周5小时左右的微信读书以及纸质书籍的阅读&#xff0c;让我体会到了读书…

C++爱好者的科目四易错点总结

科目四易错点总结 在科目四考试中&#xff0c;一部分内容是可以通过刷题快速掌握的&#xff0c;一部分内容缺因易混淆而降低我们的准确率&#xff0c;本文主要对后者进行总结&#xff0c;期待大家补充与指正。 注&#xff1a; 本文不是全部的知识点总结处 本文不是权威机构 本文…

【分布式技术专题】「探索高性能远程通信」基于Netty的分布式通信框架实现(附通信协议和代码)(上)

基于Netty的分布式通信框架实现 前提介绍回顾Dubbo分布式通信框架组成元素程序执行流程消息协议设计实现机制ChannelInboundHandlerAdapter自定义事件处理 ChannelOutboundHandlerAdapter 编(解)码处理器编码过程阶段ChannelOutboundHandlerAdapter序列化实现ChannelOutboundHa…

NLP自然语言处理的发展:从初创到人工智能的里程碑

自然语言处理&#xff08;Natural Language Processing&#xff0c;NLP&#xff09;人工智能领域中备受关注的重要分支之一。它使得计算机能够理解、解释和使用人类语言。随着技术的不断发展&#xff0c;NLP经历了从初创时期到深度学习时代的巨大演变&#xff0c;推动了互联网产…

【教学类-XX -XX 】20240128名字字卡1.0(15CM正方形手工纸、黑体,说明是某个孩子的第几个名字)

作品展示&#xff1a; 15CM手工纸上一个名字&#xff0c;页眉有这个字是哪一位孩子的第X个名字的说明 背景需求&#xff1a; 去年我制作了中6班孩子的姓名卡片&#xff0c;一张A4纸上6个字&#xff0c;每张卡片大约10CM&#xff09; 【教学类-25-01】20230320 名字卡片绘画游…