如何通过算法模型进行数据预测

当今数据时代背景下更加重视数据的价值,企业信息化建设会越来越完善,越来越体系化,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营,为企业打造自助模式的数据分析成果,以数据驱动决策。

DAP数据分析平台应运而生,主要是满足在企业进行数据分析的过程中,进行数据集中化管控、决策分析等需要。其中的算法模型模块能够基于已有数据进行数据预测,供企业对未来进行规划治理,针对于商户门店的销售情况,即可以使用算法模型进行数据预测,下面我将介绍如何进行实现数据预测。

1整体介绍

DAP数据分析平台是一款专为构建企业大数据平台而设计的产品,它能高效存储、计算、分析和处理从业务系统或ODS中抽取的海量数据。通过可视化有价值的数据,帮助企业明确分析自身的优劣势,进而调整策略,加速企业的信息化发展和整体竞争力。

该产品可以灵活组合,以解决不同企业面临的问题,它在企业范围内建立了一套统一、规范的IT架构标准体系,包括数据规范、服务规范、流程规范、界面规范和接口规范等,从而有效解决了当前的信息孤岛问题,提高了效率并降低了成本。

1.1产品介绍

首先介绍一下数通畅联的产品体系:

数通畅联的所有产品都是通过K8S云平台进行部署搭建产品环境,通过不同的产品组合方案来解决企业面临的不同信息化困境,帮助企业完善信息化发展。

上图所示通过DAP数据分析平台+MDM基础数据平台+ESB企业数据总线组成了企业数据中台方案,DAP数据分析平台就是此方案的核心,基础数据平台进行主数据治理,DAP数据分析平台进行业务数据治理,通过ESB进行数据的集成,帮助整合企业数据,统一管理,提升企业的数据价值。

1.2产品说明

数据分析平台全生命周期是通过采集各个业务系统数据构建数仓,从而进行有效分析的过程,能够真实、准确、有效地将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。

数据分析平台功能有:

1.数据来源(应用系统定义、数据源头配置、ODS数据定义)。

2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。

3.数据调度(规则校验、调度资源(同步资源、加工资源)、调度任务、调度日志(同步日志、加工日志)、质量日志、通知日志)。

4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。

5.展现模型(导航管理、组件管理、展现主题、装饰管理)。

6.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)。

7.反向集成(集成配置、数据管理、数据分发)。

8.数据标签(标签定义、标签配置、标签画像)。

9.统计分析(数据地图、质量分析、血缘分析、影响分析)。

10.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。

本次讲解的是DAP数据分析平台的算法模型功能部分,算法模型的数据来源于数据集,通过对算法进行原型配置、算法开发、算法调用一系列操作,将数据进行预测分析,最终使数据进行可视化的展现。

1.3场景介绍

DAP算法模型是使用Python开源库scikit-learn,通过scikit-learn不同算法模型进行运算从而实现预测分析等,通过不同算法模型来验证训练适合算法,得到最佳方案模型,然后通过DAP数据分析平台分析组件结合模型算出的结果进行预测、预警分析。

商户门店常常因为对未来计划错误预算而对自身经济造成损失,通过算法模型对未来销售额进行预测分析,可以让商户门店做出正确的应对策略。

主要有以下步骤:

1.算法原型配置:编辑预置算法应对商户门店的销售预测场景。

2.算法开发配置:选择配置好的算法原型回归模型,采集商户门店的历史销售额的特征值来进行算法训练,得到训练完成后的最优算法模型对象。

3.算法调用配置:通过算法模型对象调用算法得到预测销售额。

4.导航大屏查看:对于历史数据与预测数据进行展现对比。

2算法原型

算法原型是算法模型模块的组成部分,它是算法模型的基础和核心,用来预置算法为后续的算法开发做准备的功能。

2.1功能介绍

算法原型的主要功能是提供基础算法模型的开发和测试环境,帮助开发人员快速构建和测试算法模型。在算法原型中,开发人员可以对算法模型进行配置和调整,以便更好地适应不同的应用场景,本次销售额预测选择回归模型。

2.2功能配置

通过点击算法原型>选择模型>选择新增来创建算法原型,如下图:

进入如下图所示页面,填写表单点击保存。

而后可以点击编辑代码,对代码进行编辑,编辑完成后可以点击解析代码按钮来生成Jupyter Notebook文件。为不同场景提供算法原型,快速开发,方便快捷。

2.3功能展现

如下图所示为配置完成的回归模型代码。

下图为展现在DAP平台的代码片段。

回归模型属于有监督的模型,主要是针对于连续性的数据进行预测,本次说明的回归模型是基于公司下多个门店历史年月中的假期天数、线上订单数、线下订单数与销售额之间的关系从而对于未来时间段的销售额进行预测。

3算法开发

算法开发是算法模型模块的另一个组成部分,它是算法模型的进阶开发阶段。通过使用预先配置的算法模型来对数据进行预测分析,对于模型、参数调优找到最优模型算法。

3.1功能介绍

在算法开发阶段,技术人员可以对算法模型进行进一步的开发和优化,以便更好地对预测销售额进行预测。算法开发可以对要处理的数据集字段进行字段选择、条件配置、开发代码、属性配置、回写策略、调用代码、模型对象,通过对数据的训练来选择最优解,即选择最优模型算法。

3.2功能配置

点击新增后选择想要处理的数据集,再选择算法原型,填写表单,保存后就可以对数据进行调优或者对算法进行二次开发、优化了。如下图:

字段选择界面通过选择预测值字段和特征值字段来选择数据。预测值字段就是需要预测的销售额,特征值字段是会对销售额产生影响的假期天数、线上订单、线下订单、客单价,通过对这些特征进行采集,经由回归模型训练得出最优算法进行预测。

因为是预测,所以需要使用一些大批量的历史数据来进行预测,这可以确保预测的准确性,本次选择2018至2022年份之间的数据采集,所以需要在条件配置中配置时间条件。

开发代码页面可以对代码进行二次开发,还具有查看历史改动的功能,选择想要使用的版本,如下图所示,其初始代码为事先配置的算法原型。

通过点击编辑代码可以对代码进行编辑,保存后可以点击解析代码按钮解析、查看版本按钮进行查看历史版本、以及生成csv文件,如下图所示:

接下来是属性配置页面,可以基于想要配置的属性或特性分组下进行配置,选中属性或特性节点,根据需求可以点击新增按钮进行添加,本次示例不做添加。

回写策略回写分为表回写以及字段回写,本次使用的是字段回写,目标字段配置的是需要回写的预测销售额字段,条件字段作为唯一值,确保数据的一致性。

以上配置好之后,回到字段选择页面,对于数据生成CSV文件,接下来对于算法进行开发。

算法开发好后进行解析代码,将代码存储至数据库中,最后生成py文件,py文件是算法进行训练时需要调用的文件。

模型对象页面就是配置好算法后执行生成的模型对象,以此来生成算法调用信息,如下图所示页面。选中一条数据,如是未应用状态要先点击发布按钮发布,而后点击生成算法调用按钮来生成算法调用。

3.3功能展现

如下图所示为开发代码。

(1)在上图的第一段代码中,首先是读取生成的csv文件,接下来对于文件中的特征值和预测值拆分X和y,并将X和y中的数据拆分为8比2的占比作为各自的训练集以及测试集。

(2)在第二段代码中,通过传递的模型集合以及数据,求出不同模型的均方差值,均方差值是衡量预测值与真实值之间差异的指标,差值越小,说明模型的预测值与真实值之间的差异越小,模型的性能就越好,根据循环对比,找出最优模型。

(3)在第三段代码中,创建了回归模型集合,调用第二段代码,找出最优模型。

接下来对以下代码片段进行说明。

(1)在上图第一段代码中,根据寻找出的最优模型,进行参数调优,参数调优采取的方法是交叉验证,通过给出一个区间的参数,使用交叉验证后,会返回一个使用了最佳参数的模型。

(2)第二段代码就是使用了最优模型进行数据的可视化,可以直观地看出模型的效果好坏,下图的蓝色散点图为预测值散点图的分布,虚线是真实值最小值到最大值的直线分布,可以看出两个图形之间基本吻合,所以可以得出当前模型的效果较好。

至此算法开发模块已经配置完毕,生成的模型对象就是要运行的模型,其已经训练出了最优算法,接下来进入算法调用界面对它进行调用执行。

4算法调用

算法开发是算法模型模块的再一个组成部分,它是算法模型的应用和调用阶段,对算法开发经过处理生成的模型对象进行调度执行。

4.1功能介绍

算法调用基于算法开发生成,调用方式支持定时调用以及接口调用,可以配置定时条件配置、属性配置,查看代码等。创建方式分为两种,一是在算法开发页面的调用代码中生成算法调用,二是在算法调用页面手动新增,本次是通过前者实现。

4.2功能配置

在前面已经配置好的算法开发界面点击“生成算法调用”按钮生成算法调用。

在算法调用的条件配置中,需要将预测的条件进行添加,如下图:

配置完毕后点击启用再点击执行,将算法调用进行执行。

执行之后,会生成对应的算法日志,日志中可以查看执行的参数信息以及训练结果等信息。

4.3功能展现

上述的配置完成,已经将预测的未来销售额数据回写到会写策略中配置的字段当中,通过导航配置将数据展现在趋势图中展现,如下图所示:

可以观察到10月之前的历史数据与预测数据很接近,证明预测数据可以相信,本次预测预测了未来11月、12月的数据。

5总结说明

通过采集历史销售额及其相关特征值以对未来时间的销售额进行预测,企业可以通过预测结果进行未来规划治理,提高效率、规避风险。

在开发中,我对机器学习算法模型的开发和应用也有了更深入的认识和理解。以下是总结及注意事项。

5.1过程总结

整个数据预测过程是需要依靠DAP数据分析平台对门店数据进行治理后得到的数据集来进行,对于算法模型模块其内置的多种算法原型能应对不同的业务场景,本次是应用于其中的回归模型对于门店的销售额进行预测,其中主要是对于算法开发的配置,而后经过算法调用对生成的开发对象进行调用,最后得到预测值数据,配置过程后续还是有很大优化的空间,使其更智能、更易用。

5.2重要事项

算法模型在进行数据预测的过程中,需要注意以下几点:

1.生成csv文件之前需要先配置条件配置与回写策略配置,否则数据不回写,预测没有返回数据就没有意义了。

2.对于使用者而言,配置算法开发算法调用模块十分重要,对于开发人员来说主要是算法原型及算法开发的配置,后续也将预置更多的算法原型供应不同的业务需求。

5.3说在最后

数据中台项目中的难点和重点是各个业务系统的采集,并把数据变成完整的、可观察的数据,从而建立一个标准、可持续应用的数仓,而DAP产品可以把这个过程自动化。
机器学习也是一种基于数据分析的自动化方法,通过算法模型学习数据的模式和规律,从而对未来的数据进行预测和分类,算法模型的未来将会是更加智能化、自主化、高效化的发展趋势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/166823.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot学习笔记

目录 概述 常见的SSM搭建项目弊端 什么是springboot 特点 1.简化部署 2.简化配置,注解代替xml 3.简化依赖配置 4.应用监控 springboot与springmvc,springcloud关系 创建springboot项目 spring4提供的注解 Spring的发展 Java配置 1.核心注解…

构造函数,原型对象,实例对象

1.构造函数、原型对象、实例对象三者分别是什么? 构造函数:用来创建对象的函数,创建实例对象的模板 。构造函数的函数名尽量首字母大写(为了区分普通函数和构造函数)原型对象:每一个函数在创建的时候,系统都会给分配一…

wpf devexpress 绑定数据编辑器

定义视图模型 打开前一个项目 打开RegistrationViewModel.cs文件添加如下属性到RegistrationViewModel类 [POCOViewModel] public class RegistrationViewModel {public static RegistrationViewModel Create() {return ViewModelSource.Create(() > new RegistrationVie…

振弦式渗压计的安装方式及注意要点

振弦式渗压计的安装方式及注意要点 振弦式渗压计是一种高精度、高效率的地下水位测量仪器。它可以测量地下水位的高度,计算地下水的压力,从而推算出地下水的流量。对于地下水资源管理和保护、治理工程等方面具有非常重要的意义。在安装振弦式渗压计时&a…

什么是媒体见证?媒体宣传有哪些好处?

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 一,什么是媒体见证? 媒体见证是指企业举办活动,发布会,邀请媒体现场采访的一种宣传方式,媒体到场后,对其进行记录…

金蝶云星空对接打通旺店通·旗舰奇门采购退料单查询接口与创建货品档案接口

金蝶云星空对接打通旺店通旗舰奇门采购退料单查询接口与创建货品档案接口 来源系统:金蝶云星空 金蝶K/3Cloud在总结百万家客户管理最佳实践的基础上,提供了标准的管理模式;通过标准的业务架构:多会计准则、多币别、多地点、多组织、多税制应用…

ModuleNotFoundError: No module named ‘pycocotools‘

cuda 12.1 pytorch 2.0.1 python 3.11 运行代码,报该错误,尝试了以下方法解决: 方法一 # step 1: 安装cython pip install Cython# step 2: 安装pycocotools pip install githttps://github.com/philferriere/cocoapi.git#eggpycocotools…

MacOs 删除第三方软件

AppStore下载的软件 如果删除AppStore下载的软件,直接长按软件,点击删除或拖到废纸篓就可以完成软件的删除 第三方软件 但是第三方下载的软件,无法拖进废纸篓,长按软件也没有右上角的小叉 可以通过以下方法实现对软件的卸载 …

EMQX vs Mosquitto | MQTT Broker 对比

物联网开发者需要为自己的物联网项目选择合适的 MQTT 消息产品或服务,从而构建可靠高效的基础数据层,保障上层物联网业务。目前市面上有很多开源的 MQTT 产品,在性能功能等方面各有优点。本文将选取目前最为流行的两个开源 MQTT Broker&#…

详细介绍:国产操作系统银行麒麟V10的下载和安装

📚📚 🏅我是默,一个在CSDN分享笔记的博主。📚📚 ​​ 🌟在这里,我要推荐给大家我的专栏《Linux》。🎯🎯 🚀无论你是编程小白,还是有一…

buildadmin+tp8表格操作(3)----表头上方按钮绑定事件处理,实现功能(选中或取消指定行)

在buildAdmin的表格中,通过按钮来选中和取消某一行 这种情况,只适合表格行的单选 在elementplus是这样说的 我们所使用的就是这个方法 看一下buildAdmin中的用法 highlight-current-row 是element-plus 中表格的属性 因为 buildadmin 中的table是对 el…

python用最小二乘法实现平面拟合

文章目录 数学原理代码实现测试 数学原理 平面方程可写为 A x B y C z D 0 AxByCzD0 AxByCzD0 假设 C C C不为0,则上式可以改写为 z a x b y d zaxbyd zaxbyd 则现有一组点 { p i } \{p_i\} {pi​},则根据 x i , y i x_i,y_i xi​,yi​以及平面…

如何使用C#编写低代码应用插件

本文由葡萄城技术团队发布。转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 前言 作为当今快速发展的技术之一,低代码平台为开发人员提供了更高效、更简便的工具和方法,以…

redis五大常见数据结构的操作命令(string, hash, list, set和zset)

string redis的string,直接按照二进制(不做任何的转换,存的是什么取出来的依旧是什么)的方式存储。所以string不仅仅可以存储文本数据,还可以存储整数,JSON,xml甚至音视频。但是string的大小最…

数据结构与算法之美学习笔记:21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?

目录 前言什么是哈希算法?应用一:安全加密应用二:唯一标识应用三:数据校验散列函数解答开篇内容小节 前言 本节课程思维导图 如果你是 一名工程师,你会如何存储用户密码这么重要的数据吗?仅仅 MD5 加密一下…

08.智慧商城——购物车布局、全选反选、功能实现

01. 购物车 - 静态布局 基本结构 <template><div class"cart"><van-nav-bar title"购物车" fixed /><!-- 购物车开头 --><div class"cart-title"><span class"all">共<i>4</i>件商品…

性格急躁怎么办?如何改变急躁的性格?

性格急躁很多人可能都有&#xff0c;有的人只是有过&#xff0c;而有些人持续的有&#xff0c;而且越来越频繁&#xff0c;要说偶尔出现性格急躁也算不上什么大问题&#xff0c;可是当急躁成了一种人格特征&#xff0c;或者说急躁是在一段时间内持续的&#xff0c;那么这问题就…

深度学习系列54:使用 MMDETECTION 和 LABEL-STUDIO 进行半自动化目标检测标注

参考https://mmdetection.readthedocs.io/zh-cn/latest/user_guides/label_studio.html&#xff0c;这里进行简要概述&#xff1a; 1. 启动目标检测服务 在mmdetection文件夹中&#xff0c;执行 label-studio-ml start projects/LabelStudio/backend_template --with \ conf…

【LeetCode】每日一题 2023_11_20 最大子数组和(dp)

文章目录 刷题前唠嗑题目&#xff1a;最大子数组和题目描述代码与解题思路 刷题前唠嗑 LeetCode? 启动&#xff01;&#xff01;&#xff01; 今天是一道 LeetCode 的经典题目&#xff0c;如果是 LeetCode 老手&#xff0c;估计都刷过&#xff0c;话是这么说&#xff0c;但咱…

STM32存储左右互搏 SPI总线FATS文件读写FLASH W25QXX

STM32存储左右互搏 SPI总线FATS文件读写FLASH W25QXX FLASH是常用的一种非易失存储单元&#xff0c;W25QXX系列Flash有不同容量的型号&#xff0c;如W25Q64的容量为64Mbit&#xff0c;也就是8MByte。这里介绍STM32CUBEIDE开发平台HAL库实现FATS文件操作W25Q各型号FLASH的例程。…