【数据挖掘】如何修复时序分析缺少的日期

一、说明

        我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。

        我们将介绍:

  • 如何生成日期以填补数据中缺失的空白
  • 如何创建 TVF 和参数的使用
  • 如何呼叫 TVF
  • 我们将考虑扩展我们的日期生成器以获得更大的灵活性。
  • 最后,我将分享如何访问我的TVF,并向您介绍一个名为BigFunctions的开源项目。

二、简述

在某些情况下,数据为零的日期很重要,必须在数据集中显示/包含。例如:

  • 企业可以从识别零售中没有销售的天数中受益。这些日子受到假期或客户行为变化的影响。
  • 查找数据中缺失的日期有助于揭示由系统故障或不完整的数据捕获引起的异常或异常值,从而提高数据质量。显示缺少的日期是实现此目标的有用工具。

        这些缺失的日期可能会导致分析和可视化问题。因此,您需要一个解决方案来确保输出中存在所有日期,即使没有相应的数据也是如此。

        在本文结束时,您将拥有自己的 TVF,它可以生成这个......

        从一行代码开始吧!

三、缺失日期如何补救?

        请考虑以下方案:您运行了一个查询,该查询按日期提供过去四周的总调查响应结果。然后,您将结果导入 Google 表格,以快速可视化数据。

        上图没有突出显示任何缺失的数据;它看起来完全符合预期。即使您选择在 x 轴上显示所有日期,您也没有注意到 7 月中缺少的两天也是可以原谅的。

        上图是真实数据,并真实反应7月缺少两天的数据,因而数据较窄。从中可以看出,Google的数据填充是天衣无缝的感觉,问题是离开Google,我们自己是否依然能够处理好这种缺失问题?答案是:需要经过一番研究。

四、我们如何解决这个问题

         为了解决这个问题,我创建了我喜欢称之为日期轴的东西。 此日期/周/月列(无论需要什么时间段)都是与正在分析的数据集分开构建的。这可确保日期是独立的,并且不依赖于数据存在。

        创建日期轴相当简单,尽管如果您经常需要创建一个,则很麻烦。

        下面是一个简单的示例,它生成2023-6-16到 2023-6-19 日之间的日期。


WITH date_axis as (SELECT
  dates
FROM
  UNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)

SELECT
  dates
FROM
  date_axis

        generate_date_array函数是其中的关键部分,但正如函数名称所暗示的那样,输出以数组形式返回。因此,我们必须在下一步中取消嵌套(展平)此数组。

        日期轴存在于 CTE 中,因为我们需要将其视为一个单独的表,将我们的实际数据左连接到日期列表。

WITH date_axis as (SELECT
  dates
FROM
  UNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)

SELECT
  dates,
  responses as original_responses,
  ifnull(responses,0) as new_responses
FROM
  date_axis as axis
LEFT JOIN
  `spreadsheep-20220603.Case_Studies.survey_responses` as survey
  ON axis.dates = survey.date

        正如您在上面看到的,我们在survey_responses表中为 7 月 2 日和 1 日的值,因为这些日期不存在。使用日期轴,我们可以轻松发现这些并适当地处理它们,在这种情况下,值将替换为0。

        重新绘制更新的数据,我们现在捕捉到7月初缺乏回复的情况。

五、关于TVF的使用(table value Function)?

5.1 什么是TVF

        TVF 是表值函数的缩写,table value Function。与 UDF(用户定义函数)非常相似,它们允许您指定一系列任务,这些任务将在调用自定义函数时运行。

        两者之间的区别在于 UDF 为数据集中的每一行返回结果,而 TVF 返回整个表。

        您可能想知道,如果 CTE 方法完美地完成了这项工作,那有什么意义。好吧,在 TVF 中,我们可以扩展日期轴函数的功能和可重用性并简化我们的代码。

        有许多创造性和有用的方法来使用 TVF,在本文中,我们将使用一种方法来生成日期轴。

5.2 创建TVF

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
AS (
SELECT
  dates
FROM
  UNNEST(generate_date_array(start_date,end_date)) as dates
)

        创建 TVF 既好又容易;从“开始,然后是要在项目中保存 TVF 的位置。然后,您可以添加参数,我们在此示例中添加了两个参数。create or replace table function

        start_date DATE, end_date DATE

        如下所示,这两个参数替换了我们添加到 generate_date_array 函数的静态值。

        unnest(generate_date_array(start_date,end_date)) as dates

        创建 TVF 后,您可以像调用表一样调用新函数。请注意,我在 FROM 子句末尾添加了括号,以指定我希望 TVF 使用哪些值,其中 7 月 1 日作为开始日期,7 月 7 日作为结束日期。

SELECT 
  dates 
FROM 
  `spreadsheep-20220603.Case_Studies.generate_dates`("2023-07-01", "2023-07-07")

        我们现在可以更新原始查询以使用新的 TVF。

WITH date_axis as (
SELECT 
  dates 
FROM 
  `spreadsheep-20220603.Case_Studies.generate_dates`("2023-06-19", "2023-07-16")
)

SELECT
  dates,
  responses as original_responses,
  ifnull(responses,0) as new_responses
FROM
  date_axis as axis
LEFT JOIN
  `spreadsheep-20220603.Case_Studies.survey_responses` as survey
  ON axis.dates = survey.date

5.3 在TVF上扩展

        到目前为止,该函数非常有限,因为它只提供日期。如果我们想要一周的开始日期,一周从星期日开始,或者我们想要过去几年的季度开始和结束日期,该怎么办?

        虽然我们可以将该逻辑添加到调用 TVF 的 CTE 中,但让我们在 TVF 中处理它,以便在需要时它就在那里。

        我的最终版本增加了一些其他可能性,具体取决于您是否需要每周、每月或每季度的日期范围。

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
OPTIONS (description="Generate a table of dates") AS (
(
select
  date,
  format_date("%a", date) as day_of_week,
  date_trunc(date, week(monday)) as week_start_monday,
  date_trunc(date, week(monday)) + 6 as week_end_monday,
  date_trunc(date, week(sunday)) as week_start_sunday,
  date_trunc(date, week(sunday)) + 6 as week_end_sunday,
  date_trunc(date, month) as month_start,
  date_add(date_trunc(date, month), interval 1 month) - 1 as month_end,
  date_trunc(date, quarter) as quarter_start,
  date_add(date_trunc(date, quarter), interval 1 quarter) - 1 as quarter_end,
from unnest(
  generate_date_array(
    start_date,
    end_date
  )
) as date
)
);

        这为我们提供了在本文开头看到的输出,其中单个查询行可以生成数年的日期,以及它们的周、月和季度部分。

        作为奖励,我们创建的这个函数不会查询任何实际数据。这意味着它是完全免费的,而且速度快如闪电。

        即使生成从 1820 年到现在的日期也只需 1 秒。

SELECT * FROM `spreadsheep-20220603.Case_Studies.generate_dates`("1820-07-01","2023-07-15")

摄影:Benjamin Davies on Unsplash

5.4 访问BigFunctions

        为了节省一些时间,您不必在项目中创建此 TVF;您可以使用公共版本,该版本存在于 BigFunctions 开源项目中。

        要将 BigFunctions 添加到项目中,您可以使用资源管理器添加功能,然后“按名称为项目加星标”,如下所示。

        这些函数在每个区域中都可用,在每个数据集中,您可以在“例程”下找到generate_dates。试试下面的代码!

SELECT * FROM `bigfunctions.europe_west2.generate_dates`("2022-01-01", "2023-01-01");

        有关 BigFunctions 的更多详细信息可以在这里找到,其中充满了很棒的自定义函数,其中一些甚至使用 Python 来运行各种整洁的东西。如果您在日常角色中使用 BigQuery,请查看它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/45490.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Stable Diffusion生成艺术二维码

Stable Diffusion生成艺术二维码 文章会有浏览问题,点击此处查看原文 首先需要一个Stable Diffusion服务环境,《Stable Diffusion服务环境搭建(远程服务版)》如果你已经有了那就忽略 一、准备一个比较好的二维码底图 首先解析二…

Dubbo Triple 协议重磅升级:支持通过 HTTP 连通 Web 与后端微服务

作者:刘军 全新升级的 Triple 协议 在微服务协议选型方面我们看到越来越多的应用从 Dubbo2 TCP 二进制协议迁移到 Dubbo3 Triple 协议 (兼容 gRPC),以充分利用 Triple 的高效、全双工、Streaming 流式通信模型等能力;TripleHTTP/2 的组合很…

Matlab----下载和安装教程

Matlab----下载 文件中有以下文件 Matlab----安装 步骤1:打开安装软件 步骤2:运行安装软件 在matlab 2018的文件夹下找到setup,选中右键以管理员身份运行。 步骤3 选择使用文件安装密钥,然后点击下一步。 步骤4 是否接收…

怎么把图片压缩小一点?三招教会你压缩图片

在现如今的互联网时代,图片是我们日常生活中不可或缺的一部分,无论是在社交媒体上分享照片,还是在网站上发布图片,我们都希望图片能够加载得更快,占用更少的存储空间。因此,将图片压缩变得尤为重要&#xf…

python实现逻辑回归-清风数学建模-二分类水果数据

所用数据 👉👉👉二分类水果数据 1.数据预处理 可以看到有4个特征,2种分类结果,最后4个没有分类结果的数据是拿来预测的 # 1. 数据预处理 import pandas as pd df pd.read_excel(oridata/二分类水果数据.xlsx,use…

【独家解答】面试题曝光:Spring容器中的Bean会不会被GC?

大家好,我是你们的小米!今天,我们来聊一个有关Spring容器中的Bean的话题,也是面试中经常被问到的问题:“Spring 容器中的Bean是否会被GC呢?为什么?”让我们一起揭开这个神秘的面纱,解…

PP-YOLOE 论文学习

1. 解决了什么问题? 单阶段目标检测器能很好地平衡速度和精度,YOLO 系列是其中的代表。YOLOX 采用了 anchor-free 范式,加入了动态标签分配以提升检测表现,在 Tesla V100 上取得了 50.1 mAP,速度是 68.9 FPS。本文提出…

热门洗地机评测|追觅VS希亦VS米博洗地机,哪款更值得入手?

智能科技的发展越来越方便人们的生活,特别是现今人们生活水平不断提高,房子越住越大,需要顾及的房屋卫生打扫面积也越来越广。而单是通过人工去拖扫不仅很累还很浪费时间。于是洗地机的出现让很多深陷家务劳动的朋友得以解脱。因为很多洗地机…

Git简介与工作原理:了解Git的基本概念、版本控制系统和分布式版本控制的工作原理

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

如何构建适合自己的DevOps软件测试改进方案

​目录 DevOps成熟度模型分析 构建适合企业自身性能的测试过程改进框架 资料获取方法 根据2022年的DevOps全球调查报告显示,主流软件企业采用或部分采用DevOps且已获得良好成效的占比已达70%,DevOps俨然成为当下软件开发研究的重要方向。 测试作为软…

速度优化:重新认识速度优化

作者:helson赵子健 应用的速度优化是我们使用最频繁,也是应用最重要的优化之一,它包括启动速度优化,页面打开速度优化,功能或业务执行速度优化等等,能够直接提升应用的用户体验。因此,只要是 An…

vue脚手架文件说明

vue脚手架文件说明 1、文件介绍2、脚手架里面主要文件和作用 1、文件介绍 2、脚手架里面主要文件和作用 node_modules 都是下载的第三方包public/index.html 浏览器运行的网页src/main.js webpack打包的入口src/APP.vue Vue页面入口package.json 依赖包列表文件

MFC CList 类的使用

MFC提供CList 类; 类CList支持可按顺序或按值访问的非唯一对象的有序列表;CList 列表与双链接列表行为相似; 类型POSITION的变量是列表的关键字;可使用POSITION变量作为循环因子来顺序遍历列表,作为书签来保存位置&am…

PDF文件转换成word软件有哪些?分享两个文件格式转换软件

在日常办公中,我们经常使用各种办公软件,其中PDF和Word是最常见的两种格式。相较于Word文件,PDF文件具有更强的兼容性和安全性,因此我们通常会选择以PDF格式分享文件。然而,如果我们需要提取PDF文件中的部分内容&#…

Flask 创建文件目录,删除文件目录

项目结构 app.py from flask import Flask, render_template, request, redirect, url_for import osapp Flask(__name__) BASE_DIR os.path.abspath(os.path.dirname(__file__)) FILE_DIR os.path.join(BASE_DIR, testfile)app.route(/, methods[GET, POST]) def index():…

Elasticsearch

概念 Elasticsearch是Java语言开发的分布式的查询系统,它的每一个节点(每一个运行实例)都是一个基于Lucene的查询引擎,把Lucene用Netty封装成服务。 Lucene使用的是倒排索引的结构,如下图: Elasticsearc…

8-js高级-6(promise)

一 Promise 的理解和使用 1 Promise 是什么? 理解 抽象表达: Promise 是一门新的技术(ES6 规范)Promise 是 JS 中进行异步编程的新解决方案 (备注:旧方案是单纯使用回调函数) 具体表达: 从语法上来说: Promise 是一个构造函数从功能上来说: promise 对象用来…

239. 滑动窗口最大值

力扣题目链接 (opens new window) 给定一个数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回滑动窗口中的最大值。 进阶: 你能在线性时间复杂度内解…

根据UIL下载图片/视频、根据URL自动下载图片/视频、GUI自动下载想要的图片

1,根据UIL下载图片/视频 def downForInterface(file_path):count 1value_rows []with open(file_path, encodingUTF-8) as file:f_csv csv.reader(file)for r in f_csv:value_rows.append(r)for file_path in value_rows:cunmulu if . in file_path[0]:print(cu…

[VUE]Element_UI 实现TreeSelect 树形选择器

文章目录 前言1、安装2、引用3、使用 前言 最近在做一个人员管理系统,在增改用户信息时,可能会设置用户所在的部门,因为部门是多级的,于是想到用Element_UI的TreeSelect组件实现 效果: 1、安装 npm install --save…