3_流量预测综述阅读_Cellular traffic prediction with machine learning: A survey

为了方便学习英语书写,总结的一些话用英语书写

♥目录♥

    • 0、文献来源and摘要
    • 1、introduction
    • 2、prediction problems and datasets
      • 2.1 prediction problems
      • 2.2 dataset
        • (1)Telecom Italia 意大利电信 2015
        • (2)City Cellular Traffic Map (C2TM) 2015
        • (3)、LTE Network Traffic Data_kaggle
        • (4)、Cellular Traffic Analysis Data 2019
        • (5)、China Unicom One Cell Data
        • (6)、Shanghai Telecom dataset 2020
        • (7)、The AIIA data
    • 3、数据预处理和预测模型
      • 3.1 data preprocessing
        • 3.1.1 直接预测 direct-prediction
        • 3.1.2 先分类然后预测
        • 3.1.3 先分解然后预测
      • 3.3 预测模型
        • 3.3.1 统计模型 statistical models
          • (1)ARIMA : Auto-Regressive Integrated Moving Average自回归移动平均模型
          • (2)HW:Holt–Winters三次指数平滑模型
        • 3.3.2 机器学习模型 machine learning models
          • (1)RF:random forest 随机森林
          • (2)LightGBM
          • (3)GPR:Gaussian progress regression
          • (4)MLR:multiple linear regression
          • (5)Prohet
        • 3.3.3 深度学习模型 deep learning models
          • (1)FFNNs:feed-forward neural networks前馈神经网络
          • (2)CNN
          • (3)RNN
          • (4)LSTM
          • (5)GRU
          • (6)ConvLSTM
          • (7)LSTM+attention
          • (8)CNN+RNN

0、文献来源and摘要

在这里插入图片描述

  • 摘要:
    • review the relevant studies on cellular traffic prediction
    • classify the prediction problems as the temporal(时间的)and spatiotemporal prediction problems
    • 人工智能的预测模型分为:statistical, machine learning, deep learning

1、introduction

流量预测的challenge:

  • complex internal(内部的)patterns hidden in the historical traffic data
  • pratical deployment(实际部署):a gap between high-preformance prediction model and real-world systems
    这篇综述的贡献性:
  • classification of cellular prediction problems to four workflows and three model
    • workflow : direct-prediction, classification-then-prediction, decomposition-then-prediction, and clustering-then-
      prediction
    • model : statistical, machine learning, and deep learning
  • a comprehensive(广泛的) collection of eight open datasets
  • evaluation metrics 评估指标
  • potential applications and directions

2、prediction problems and datasets

2.1 prediction problems

  • temporal prediction problem:
    -
    在这种最简单的类型中,只使用历史流量数据中的时间依赖性
  • spatiotemporal prediction problem:
    • the connected users have moved and connected from one base station to another base station, with the process of handover(切换)
      在这里插入图片描述
      在多个基站或多个区域内的流量,除了时间依赖关系,还考虑了它们的空间依赖关系
      the objective is to predict the entire traffic distribution in a given area or only at the hotspots(热点地区)
  • 这两种问题都可以看做监督学习:moving windows
    • 收集到的流量数据被视为univariate单变量时间序列,对未来的时间步(time steps)的流量预测基于固定长度的历史数据
      在这里插入图片描述
  • 衡量流量:
    • SMS/call service/internet usage service
    • physical resource block utilization (利用率)
    • number of connected users
  • 流量数据通过基站收集,然后通过cellular network operator 将不同时间粒度的数据进行聚合
    • 流量需求是由网关上布置的专用探头来监控GPRS隧道协议?(这是啥?
    • 一般的假设流量数据只在一个基站内使用(没有传输)或者传输到一个central server中央服务器中(需要足够的计算资源
    • 小的改进: 流量数据不再是全部传输到中央服务器中,而是按照数据对预测精度的贡献性先对数据进行排序,然后再从基站传输到中央服务器中
    • 少数情况下,流量数据是由用户端收集的
    • 大多数时间粒度是5min到1h
  • 流量预测问题的分类:
    在这里插入图片描述
    • univariate temporal prediction 单变量时域预测
      • N N N个时间步的历史数据: X = { x 1 , x 2 , . . . , x N } \mathcal{X}=\{x_1,x_2,...,x_N\} X={x1,x2,...,xN}
      • 预测第 N + 1 N+1 N+1个时间步的 x N + 1 x_{N+1} xN+1
      • y = f ( X ) y=f(\mathcal{X}) y=f(X)
    • univariate spatiotemporal prediction 单变量时空预测
      • 流量数据从标量 x i x_i xi变成矢量 x i ⃗ \vec{x_i} xi
      • x i ⃗ \vec{x_i} xi :不同基站的数据使用率
    • multivariate temporal prediction 多变量时域预测
      • x i ⃗ \vec{x_i} xi :SMS, call, and data usages from the same base station
    • multivariate spatiotemporal prediction 多变量时空预测
      • 里面的元素是 x i ⃗ \vec{x_i} xi : 不同空间区域的不同变量
      • 把整个的矩阵变成向量:当不同的空间区域存在于一个规则的网格中时,可以将流量格式化为具有相同网格大小的矩阵

2.2 dataset

(1)Telecom Italia 意大利电信 2015

链接指路

  • 数据集介绍:
    • This dataset was collected in the city of Milan, Italy, from November 1, 2013, to January 1, 2014.
    • 空域被分为100x100的网格,每个网格是235x235平方米
    • 通过分析call detail record(CDR)每十分钟每个网格提取不同的信息(SMSs, calls, and Internet usage data)
    • 这个数据集可以用于单变量、多变量的时空预测流量问题
(2)City Cellular Traffic Map (C2TM) 2015

链接:https://github.com/caesar0301/city-cellular-traffic-map

  • 数据集介绍:
    • 13,269 base stations in a medium-sized city in China from August 19, 2012, to August 26, 2012.
    • Each data record contains the base station id(基站id), a timestamp(时间戳), number of mobile users(用户数), number of transferred packets(传输包的数量), and number of transferred bytes(传输字节数) every hour. base station location(基站位置)
(3)、LTE Network Traffic Data_kaggle

click on this link:https://www.kaggle.com/naebolo/predict-traffic-of-lte-network(sos没有了)

  • 数据集介绍:
    • 4G data usage within 57 cells in 24 h for one year, from October 23, 2017, to October 22, 2018
    • the locations of these 57 cells are not available->temporal type
(4)、Cellular Traffic Analysis Data 2019

https://github.com/AminAzari/cellular-traffic-analysis

  • 数据集介绍:
    • the traffic packets captured from the user side on several Android devices by using virtual private network tunneling
    • packet arrival/departure time, source/destination IP addresses, communication protocol (e.g., UDP, TCP, SSL), and encrypted payload
(5)、China Unicom One Cell Data

链接:https://github.com/JinScientist/traffic-data-5min/blob/master/traffic_one_cell.csv

  • 数据集介绍:
    • 2016年1月1日至2017年5月1日17个月
    • time steps: 5 min
    • 对中国移动的4G网络的CDR data进行统计
    • 只有一个基站
    • 适用于单变量时间预测问题
(6)、Shanghai Telecom dataset 2020

链接:http://sguangwang.com/TelecomDataset.html

  • 数据集介绍:
    • 2014年6月1日至11月30日在中国上海收集了3233个基站和9481部手机
    • 这个数据集提功力每个用户会话的开始时间和结束时间以及对应基站的位置
    • 这个数据集本来适用于边缘计算的,但是也可以用于流量预测
(7)、The AIIA data

link: https://github.com/Phil-Shawn/DMNN

  • 数据集介绍:
    • 2017年1月1日至2018年11月15日三个匿名区域的小时流量数据
    • 预测问题属于时间类型

3、数据预处理和预测模型

3.1 data preprocessing

4种workflows:direct-prediction, classification-then-prediction, decomposition-then-prediction, and clustering-then-prediction
需要不同的数据预处理方式

3.1.1 直接预测 direct-prediction

在大多研究中输入的histical data and prediction target已经是正确的格式了(time series or input vectors
只需要通用的数据预处理:

  • 数据归一化:data scaling through data standardization or min-max normalization
  • 数据缺失问题:data imputation
    • forward filling
    • moving average
    • bayesian gaussian tensor decomposition 贝叶斯高斯张量分解
      在这里插入图片描述
3.1.2 先分类然后预测

the raw data packets: 从一个基站或者一个用户端收集到的不同应用或者服务的流量数据
流量分类的基础:deep packet inspection(检测) techniques
绕后使用ML或者DL将数据包分为:Email, text message, video streaming, audio chat, or video call
然后分别对每一种业务进行聚类
使用不同的预测模型来预测不同应用数据的未来流量
在这里插入图片描述
先分类然后预测的好处:

  • 在后续的预测过程中,单个应用的流量预测比或者流量预测更加稳定,更容易达到好的效果
  • 通过对不同应用的数据使用率的观察可以设计相应的管理措施:当更重要的应用需要额外的传输带宽时,可以降低视频流的质量
    另一种分类方式:判断单个小区的流量数据是可预测还是不可预测的(通过朴素贝叶斯分类器)就是用过预测误差实现的
    只有预测误差小的贾占数据才能在之后的预测中使用,减少了训练成本
3.1.3 先分解然后预测

将单个变量的输入流量时间序列分解为多个组件
分别预测每个不同的组件
最终预测的结果是组件的输出的叠加
和先分类在预测不同,组件本身是没有物理意义的

在这里插入图片描述

3.3 预测模型

3.3.1 统计模型 statistical models
(1)ARIMA : Auto-Regressive Integrated Moving Average自回归移动平均模型
  • 单变量时间序列模型
  • 基于三种分量的加权线性组合:自回归分量(AR)、差分分量(I)、移动平均分量(MA)
(2)HW:Holt–Winters三次指数平滑模型
  • 单变量时间序列模型
  • 基于三种分量的组合:simple exponential smoothing, Holt’s ES, Winter’s ES

在这里插入图片描述

3.3.2 机器学习模型 machine learning models
(1)RF:random forest 随机森林
(2)LightGBM
(3)GPR:Gaussian progress regression
(4)MLR:multiple linear regression
(5)Prohet

在这里插入图片描述

3.3.3 深度学习模型 deep learning models
(1)FFNNs:feed-forward neural networks前馈神经网络
(2)CNN
(3)RNN
(4)LSTM
(5)GRU
(6)ConvLSTM
(7)LSTM+attention
(8)CNN+RNN

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/238900.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OOD : DMAD Diversity-Measurable Anomaly Detection

Diversity-Measurable Anomaly Detection 基于重建的异常检测模型通过抑制异常的泛化能力来迭代学习。然而,由于这种抑制,不同的正常模式的重建效果也会变得不理想。为了解决这个问题,本文提出了一种称为多样性可测量异常检测(DMA…

计算机网络编程

网络编程 Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机, Java 仍是企业和开发人员的首选开发平台。 课程内容的介绍 1. 计算机网络基础 2. So…

射频功率放大器的参数有哪些

射频功率放大器是射频通信系统中重要的组件,用于将输入的射频信号放大到需要的功率水平。在设计和选择射频功率放大器时,需要考虑多种参数。下面西安安泰将详细介绍射频功率放大器的常见参数。 1、P1dB功率压缩点 当放大器的输入功率比较低时&#xff0c…

2024年AI云计算专题研究报告:智算带来的变化

今天分享的人工智能系列深度研究报告:《2024年AI云计算专题研究报告:智算带来的变化》。 (报告出品方:华泰证券) 报告共计:32页 Al 云计算 2024:关注智算带来的新变化 通过对海内外主要云厂商及其产业链…

Godot Engine:跨平台游戏开发的新境界 | 开源日报 No.92

godotengine/godot Stars: 62.6k License: MIT Godot Engine 是一个功能强大的跨平台游戏引擎,可用于创建 2D 和 3D 游戏。它提供了一套全面的常见工具,让用户可以专注于制作游戏而不必重复造轮子。该引擎支持将游戏一键导出到多个平台上,包…

crmeb后台自定义菜单并生成代码

crmeb v5 版本, 前后端分端 后台菜单的生成 进入后台界面之后,我们可以看到界面如下 找到 维护->开发配置->权限维护->添加规则按扭 我们要在设置的 菜单之下,添加一个 基础配置的 子菜单 提交之后,刷新页面就会在列…

在开发微信小程序的时候,报错navigateBack:fail cannot navigate back at firstpage

这个错误的意思是:在这个页面已经是第一个页面了,没办法再返回了 报错原因 这个错误原因其实也简单,就是在跳转的时候使用了wx.redirectTo(),使用wx.redirectTo()相当于重定向,不算是从上一个页面跳转过来的&#xf…

消费升级:无人零售的崛起与优势

消费升级:无人零售的崛起与优势 随着人们生活水平的提高,消费内容正在从生存型消费转向以精神体验和享乐为主的发展型消费。社会居民的消费结构不断变迁,明显呈现消费升级趋势。个性化和多元化消费势头正在崛起,特别是无人零售的自…

nextcloud如何将一个文件共享给所有人

nextcloud能够将文件/文件夹共享给某个用户或者用户组或者生成链接分享,但是无法直接将某个文件共享给nextcloud内部所有用户,并且nextcloud只有分组的概念,没有分组上下级的概念。 我们可以一个用户一个用户的共享,或者创建一个…

使用rancher rke快速安装k8s集群

概述 Rancher Kubernetes Engine(RKE)是一个用于部署、管理和运行Kubernetes集群的开源工具。旨在简化Kubernetes集群的部署和操作。 RKE具有以下特点和功能: 简化的部署过程 RKE提供了一个简单的命令行界面,使您可以轻松地部署…

WhatsApp全球获客怎么做?

一、导语 随着全球数字化趋势的加速,WhatsApp作为一种即时通讯工具,已经成为了连接全球用户的桥梁。 对于企业和营销人员来说,利用WhatsApp拓展全球业务是一种非常有效的策略,本文将为您揭示WhatsApp全球获客的秘密,…

【pytest】单元测试文件的写法

前言 可怜的宾馆,可怜得像被12月的冷雨淋湿的一条三只腿的黑狗。——《舞舞舞》 \;\\\;\\\; 目录 前言test_1或s_test格式非测试文件pytest.fixture()装饰器pytestselenium test_1或s_test格式 要么 test_前缀 在前,要么 _test后缀 在后! …

从头到尾的数据之旅

目录 引言 链表介绍 单向链表的接口实现 结构 创建节点 头插 尾插 头删 尾删 打印 节点查找 节点前插入 节点删除 内存释放 总结 引言 在前面的学习中,我们深入了解了顺序表,通过其增删查改的操作,我们发现了顺序表在某些情况…

MistralAI发布全球首个MoE大模型-Mixtral 8x7B,创新超越GPT-4

引言 MistralAI,一家法国的初创企业,近期在AI界引发了轰动,刚刚发布了全球首个基于MoE(Mixture of Experts,混合专家)技术的大型语言模型——Mistral-8x7B-MoE。这一里程碑事件标志着AI技术的一个重要突破…

【文心一言】使用飞桨 AI Studio 快速搭建,看图识猜成语应用

目录 一、背景二、实践三、创建应用3.1、零代码开发3.2、应用名称3.2、模型训练3.3、开始训练 四、应用部署4.1、发布项目4.2、搜索应用4.3、应用部署4.4、获取令牌4.4、导入依赖4.5、配置CORS4.6、使用测试API4.7、运行4.8、测试API接口4.9、前端API接口 五、启动前端5.1、模块…

百度文库下载要用券?Kotlin爬虫几步解决

百度作为国内知名的网站,尤其是文库里面有各种丰富的内容,对我们学习生活都有很大的帮助,就因为其内容丰富,如果看见好用有意思的文章还用复制粘贴等方式就显得有点落后了,今天我将用我所学的爬虫知识给你们好好上一课…

git 相关操作说明

1.先下载git相关软件 下载地址: https://git-scm.com/download/win下载其中一个安装 2.打开gitee网站,注册账号 3.打开个人中心,选择ssh公钥,查看如何生成公钥 4.生成公钥后,添加相应的公钥 具体仓库操作 1.第一…

Java二十一章 网络通信

1 网络程序设计基础 网络程序设计编写的是与其他计算机进行通信的程序。 局域网与互联网 服务器是指提供信息的计算机或程序,客户机是指请求信息的计算机或程序。网络用于连接服务器与客户机,实现两者间的相互通信。 网络协议 网络协议规定了计算机…

数字孪生的项目类型

数字孪生是一种通过数字模型对实际系统、产品或过程进行实时仿真和监测的技术。它可以在虚拟环境中模拟和反映现实世界中的物理对象、系统或过程。数字孪生技术有广泛的应用领域,以下是一些数字孪生可以涉及的项目类型,希望对大家有所帮助。北京木奇移动…

STM32储存器和总线构架

一、引言 本篇文章旨在介绍STM32小容量、中容量和大容量的储存器和系统构架,文中涉及到一些专有名词和概念较为抽象和陌生,建议读者能够查阅相关资料和知识加深了解。 二、正文 (一)、系统构架 在小容量、中容量和 大容量产品中…