使用 Amazon Redshift Serverless 和 Toucan 构建数据故事应用程序

986c6759a5b4c3da2ac9087e00f88d87.gif

这是由 Toucan 的解决方案工程师 Django Bouchez与亚马逊云科技共同撰写的特约文章。

带有控制面板、报告和分析的商业智能(BI,Business Intelligence)仍是最受欢迎的数据和分析使用场景之一。它为业务分析师和经理提供企业的过去状态和当前状态的可视化,帮助领导者制定将影响企业未来发展的战略决策。但是,客户仍想通过更好的方式用他们的数据讲故事,从而提高其 BI 工具的采用率。

市场上的大多数 BI 工具都提供了一组详尽的自定义选项来构建数据可视化。这可能看起来是个好主意,但最终会给业务分析师带来负担,因为他们在撰写报告之前需要探索无限的可能性。分析师不是图形设计师,设计不当的数据可视化可能会隐藏它想传达的见解,甚至误导观看者。要从数据中获得更多价值,您应专注于构建用于讲述故事且受众易于理解的数据可视化。这正是引导式分析的作用所在。它不提供无限的自定义选项,而是通过强制实施设计最佳实践来有意地限制选择。引导式体验非常简单,这使业务分析师能够花更多的时间来生成实际见解,而无需担心如何呈现这些见解。

这篇文章阐明了引导式分析的概念,并向您说明了如何使用 Amazon Redshift Serverless 和亚马逊云科技合作伙伴 Toucan 来构建数据讲故事应用程序。Toucan 与 Redshift Serverless 原生集成,这使您能够在几分钟内部署可扩展的数据堆栈,而无需管理任何基础设施组件。

Amazon Redshift 是一项完全托管式云数据仓库服务,可让您分析大量结构化和半结构化数据。Amazon Redshift 可以从几 GB 大小的数据仓库扩展到 PB 级数据仓库,亚马逊云科技最近已宣布在全球范围内推出 Redshift Serverless,这使其成为以可扩展且经济高效的方式存储数据和运行临时分析的最佳选择之一。

利用 Redshift Serverless,您可以通过运行独立的 SQL 查询或使用数据可视化工具(例如 Amazon QuickSight、Toucan 或其他第三方选项)来获得数据见解,而无需管理数据仓库基础设施。

Toucan 是一个基于云的引导式分析平台,专门用于降低向业务用户提供数据见解的复杂性。为此,Toucan 在数据讲故事应用程序的每个阶段(包括数据连接、构建可视化以及在任意设备上分发)提供无代码的、全面的用户体验。

如果您很着急,想看看可以用此集成做什么,请查看亚马逊云科技和 Toucan 的诈骗者攻击可视化(https://louishourcade.github.io/aws-toucan-website/),其中 Redshift Serverless 和 Toucan 可以帮助您了解全球诈骗者攻击的演变。

解决方案概览

市场上推出了多种 BI 工具,每种工具都提供了一组日益增加的功能和自定义选项,以便能够在竞争中脱颖而出。自相矛盾的是,这似乎并没有提高企业内的 BI 工具采用率。利用更复杂的工具,数据拥有者会花时间构建精美的视觉效果,并倾向于在控制面板中添加尽可能多的信息,而不是向业务用户提供简单易懂的信息。

在这篇文章中,我们将从一名数据工程师的角度说明引导式分析的概念,该工程师需要通过数据可视化向业务用户传达故事。这名虚构的数据工程师必须创建控制面板来了解诈骗者攻击在过去 120 年中的演变情况。在 Redshift Serverless 中加载诈骗者攻击数据集后,我们将指导您使用 Toucan 撰写故事,以便更好地说明诈骗者攻击随着时间的推移的演变情况。借助 Toucan,您可以与 Redshift Serverless 中的数据集进行原生连接,使用无代码界面转换数据,构建讲故事视觉效果,然后发布它们以供业务用户使用。诈骗者攻击可视化示例(https://louishourcade.github.io/aws-toucan-website/)说明了按照这篇文章中的说明操作可实现的目标。

此外,我们还录制了一个视频教程(https://youtu.be/rIcUjUKkz20),说明如何将 Toucan 与 Redshift Serverless 连接并开始构建图表。

解决方案架构

下图描绘了我们的解决方案架构。

dac8ed1123396d740a4c28f586c41f39.png

我们使用 Amazon CloudFormation 堆栈在您的 Amazon 账户中部署所需的所有资源:

  • 联网组件– 这包括一个 VPC、三个公共子网、一个互联网网关和一个用于托管 Redshift Serverless 端点的安全组。在这篇文章中,我们使用公共子网来促进来自外部来源(例如 Toucan 实例)的数据访问。在这种情况下,Redshift Serverless 中的数据仍由可限制传入流量的安全组和数据库凭证提供保护。对于生产工作负载,建议将流量保留在 Amazon 网络中。为此,您可以在私有子网中设置 Redshift Serverless 端点,并通过 Amazon Marketplace 在您的 Amazon 账户中部署 Toucan。

  • Redshift Serverless 组件– 这包括 Redshift Serverless 命名空间和工作组。Redshift Serverless 工作区可供公开访问,以便于从 Toucan 实例进行连接。数据库名称和管理员用户名在部署 CloudFormation 堆栈时被定义为参数,而管理员密码是在 Amazon Secrets Manager 中创建的。在这篇文章中,我们使用数据库凭证连接到 Redshift Serverless,但 Toucan 还支持与 Amazon 凭证和 Amazon Identity and Access Management(IAM)配置文件连接。

  • 自定义资源 – CloudFormation 堆栈包含一个自定义资源,此资源是一个 Amazon Lambda 函数,在创建 CloudFormation 堆栈时,该函数自动将诈骗者攻击数据加载到 Redshift Serverless 数据库中。

  • IAM 角色和权限– 最后,CloudFormation 堆栈包括与前面提到的服务相关的所有 IAM 角色,以便与您账户中的其他 Amazon 资源进行交互。

在以下部分中,我们将提供在 Redshift Serverless 中将 Toucan 与数据连接的所有说明,并指导您构建数据讲故事应用程序。

示例数据集

在这篇文章中,我们使用一个自定义数据集,其中列出了从 1900 年开始的所有全球已知的诈骗者攻击事件。您无需自行导入数据;在部署 CloudFormation 堆栈时,我们使用 Amazon Redshift COPY 命令加载数据。COPY 命令是用于将数据加载到 Amazon Redshift 的最快、最可扩展的方法之一。有关更多信息,请参阅使用 COPY 命令加载数据。

该数据集包含 4900 条记录与下面的列:

  • 日期

  • 十年

  • 世纪

  • 类型

  • Zone_Type

  • 区域

  • 国家/地区

  • 活动

  • 性别

  • 年龄

  • 重大

  • 时间

  • 种类

  • href(包含上下文描述的 PDF 链接)

  • Case_Number

先决条件

对于此解决方案,您应该具备以下先决条件:

  • 一个 Amazon 账户。如果您还没有账户,请参阅注册 Amazon 中的说明。

  • 对此解决方案中使用的 Amazon 资源具有权限的 IAM 用户或角色。

  • Toucan 免费试用版,用于构建数据讲故事应用程序。

设置 Amazon 资源

您可以在已提供 Redshift Serverless 的任何区域启动 CloudFormation 堆栈。

1. 选择 Launch Stack(启动堆栈)以开始为这篇文章创建所需的 Amazon Website Service 资源:(https://console.aws.amazon.com/cloudformation/home?region=us-east-1#/stacks/new?stackName=aws-toucan&templateURL=https://aws-blogs-artifacts-public.s3.amazonaws.com/artifacts/BDB-2389/template.json)

272bbbb71934ec5fbe650d52f7ff789d.png

2. 在 Redshift Serverless 中指定数据库名称(默认为 dev)。

3. 指定管理员用户名(默认为 admin)。

您无需指定数据库管理员密码,因为它是由 CloudFormation 堆栈在 Secrets Manager 中创建的。此密钥的名称是 AWS-Toucan-Redshift-Password 。我们在后续步骤中将使用密钥值。

测试部署

部署 CloudFormation 堆栈需要花费几分钟的时间。完成部署后,您可以确认已创建资源。要访问您的数据,您需要获取 Redshift Serverless 数据库凭证。

1. 在 CloudFormation 堆栈的 Outputs(输出)选项卡上,记下 Secrets Manager 密钥的名称。

32d8f5b0dfd196ae37ce2421a757b625.png

2. 在 Secrets Manager 控制台上,导航到 Amazon Redshift 数据库密钥,并选择 Retrieve secret value(检索密钥值)以获取数据库管理员的用户名和密码。

4be59ab68db23fda52f10b1c0c3a9b29.png

3. 要确保您的 Redshift Serverless 数据库可用且包含诈骗者攻击数据集,请在 Amazon Redshift 控制台上打开 Redshift Serverless 工作组,然后选择 Query data(查询数据)来访问查询编辑器。

4. 另请注意 Redshift Serverless 端点,您需要将该端点连接到 Toucan。

5689692b91417f4df6a3e203c79d6eb1.png

5. 在 Amazon Redshift 查询编辑器中,运行以下 SQL 查询来查看诈骗者攻击数据:

SELECT * FROM "dev"."public"."shark_attacks";

左滑查看更多

c7b8515b326da86ad9e2d4380cfebffa.png

请注意,如果您在启动 CloudFormation 堆栈时更改默认值,则需要在 SQL 查询中更改数据库的名称。

您已在自己的 Amazon Website Service 账户中配置 Redshift Serverless,并且已上传诈骗者攻击数据集。现在是时候通过构建讲故事应用程序来使用这些数据了。

启动 Toucan 免费试用版

第一步是通过 Toucan 免费试用版访问 Toucan 平台。

填写表单并完成注册步骤。之后,您将在暂存模式下进入 Storytelling Studio。随意浏览已创建的内容。

04421a7cdfbd27fad557131218ea7dcd.png

将 Redshift Serverless 连接到 Toucan

要连接 Redshift Serverless 与 Toucan,请完成以下步骤:

1. 在 Toucan Storytelling Studio 的底部选择 Datastore(数据存储)。

2. 选择 Connectors(连接器)。

Toucan 通过 AnyConnect 与 Redshift Serverless 原生集成。

3. 搜索 Amazon Redshift 连接器,并用以下信息填写表单:

  • 名称 – Toucan 中的连接器的名称。

  • 主机 – 您的 Redshift Serverless 端点。

  • 端口 – 您的 Amazon Redshift 数据库的侦听端口(5439)。

  • 默认数据库 – 要连接到的数据库的名称(默认为 dev,除非在 CloudFormation 堆栈参数中进行了编辑)。

  • 身份验证方法 – 用于连接到 Redshift Serverless 的身份验证机制。在这种情况下,我们使用数据库凭证。

  • 用户 – 用于对 Redshift Serverless 进行身份验证的用户名(默认为 admin,除非在 CloudFormation 堆栈参数中进行了编辑)。

  • 密码 – 用于对 Redshift Serverless 进行身份验证的密码(您应从 Secrets Manager 中检索它;密钥的名称是 AWS-Toucan-Redshift-Password )。

da6448f315414a873ac7696ccc18dffe.png

创建实时查询

您现已连接到 Redshift Serverless。完成以下步骤以创建查询:

1. 在主页上,选择 Add tile(添加磁贴)以创建新的可视化。

bd6ccee564d704eac6334899dc5317e3.png

2. 选择 Live Connections(实时连接)选项卡,然后选择您在上一步中创建的 Amazon Redshift 连接器。

a189d334851ae38a64b8817bed16e98a.png

Toucan 试用版将指导您构建第一个实时查询,在该查询中,您可以使用 Toucan YouPrep 模块转换数据,而无需编写代码。

例如,如以下屏幕截图所示,您可以使用此无代码接口按活动计算重大诈骗者攻击次数的和,获取前五名,然后计算总计的百分比。

515a1af924b2d7ca2d2340122babf5e0.png

构建您的第一个图表

在数据准备就绪后,选择 Tile(磁贴)选项卡,并填写可帮助您构建图表的表单。

例如,您可以配置五项最危险活动的排行榜,并为超过 100 次攻击的活动添加突出显示效果。

选择 Save Changes(保存更改)以保存您的作品并返回主页。

7a94027d6fd92661c3c32acc52827066.png

发布和分享您的作品

在此阶段之前,您一直在 Staging 模式下工作。要让所有人都能看到您的作品,您需要将它发布到 Production 。

在主页的右下角,选择眼睛图标,从未来最终用户的角度预览您的作品。然后,您可以选择 Publish(发布)以使您的作品可供所有人查看。

e48e242f90f7fa46bc099e57d707d466.png

Toucan 还提供多个嵌入选项,使最终用户能够更轻松地访问您的图表(例如,使用手机和平板电脑)。

5d60b4bbce333ab1b98ba303ed9375a2.png

通过执行这些步骤,您已连接到 Redshift Serverless,使用 Toucan 无代码接口转换数据,并为业务最终用户构建了数据可视化。Toucan 试用版将在此过程的每个阶段为您提供指导,以帮助您入门。

Redshift Serverless 和 Toucan 引导式分析通过减少数据工程师的基础设施工作以及让业务最终用户更易于理解控制面板,为提高 BI 工具的采用率提供了一种有效的方法。这篇文章仅涵盖了 Redshift Serverless 和 Toucan 提供的功能的一小部分,因此,请随时探究 Amazon Redshift Serverless 文档和 Toucan 文档中的其他功能。

清理

这篇文章中通过 CloudFormation 模板部署的某些资源在使用时会产生费用。请务必在完成后移除这些资源并清理作品,以避免产生不必要的费用。

在 CloudFormation 控制台上,选择 Delete stack(删除堆栈)以删除所有资源。

总结

这篇文章向您说明了如何使用 Redshift Serverless 和 Toucan 设置端到端架构以实施引导式分析。

该解决方案受益于 Redshift Serverless 的可扩展性,使您能够以经济高效的方式存储、转换和公开数据,而无需管理任何基础设施。Redshift Serverless 与 Toucan 原生集成,后者是一款引导式分析工具,可供所有人在任意设备上使用。

引导式分析侧重于通过数据报告传达故事。通过对自定义选项设置有意图的约束,Toucan 使数据拥有者能够轻松构建有意义的控制面板,向最终用户传达清晰简洁的信息。它适用于您的内部和外部客户,以及无限数量的使用场景。

立即使用我们的 CloudFormation 模板和免费的 Toucan 试用版开始试用!

Original URL: 

https://aws.amazon.com/blogs/big-data/build-a-data-storytelling-application-with-amazon-redshift-serverless-and-toucan/

本篇作者

aa5b5f47171f0565b305df8d02e0332f.png

Louis Hourcade

亚马逊 Professional Services 团队数据科学家。他与各个行业的亚马逊客户合作,通过创新性技术帮助他们加快获得业务成果。业余时间,他喜欢跑步、攀爬巨石和冲浪(不太大的浪)。

f73320a017b264a9aacc9374af5771ec.png

Benjamin Menuet

亚马逊 Professional Services 数据架构师。他帮助客户开发大数据和分析解决方案,以加快实现业务成果。工作之余,Benjamin 是一名越野跑运动员,并且完成了一些很著名的比赛,例如 UTMB。

0f84167e09048b2c08510e7f048e8c7a.png

Xavier Naunay

亚马逊 Professional Services 数据架构师。他是亚马逊 ProServe 团队的成员,帮助企业客户使用亚马逊服务解决复杂的问题。闲暇时,他不是在旅行,就是在了解技术和其他文化。

d3630231abd6877d9bc7177fa7d3b4a8.png

Django Bouchez

Toucan 解决方案工程师。他与销售团队合作,提供有关技术和功能验证和证明方面的支持,还帮助研发部与亚马逊等云合作伙伴一起演示新功能。工作之余,Django 是一名家庭酿酒师,还练习水肺潜水和运动攀岩。

a63910f8c967ab341e23e3fe5e38fa86.gif

e046341fb4f3ba8442f61121616ecb77.gif

听说,点完下面4个按钮

就不会碰到bug了!

bbb3432a86c802eeb8ce650294253d4f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/88732.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

opencv-全景图像拼接

运行环境 python3.6 opencv 3.4.1.15 stitcher.py import numpy as np import cv2class Stitcher:#拼接函数def stitch(self, images, ratio0.75, reprojThresh4.0,showMatchesFalse):#获取输入图片(imageB, imageA) images#检测A、B图片的SIFT关键特征点,并计算…

vue 简单实验 自定义组件 独立模块

1.概要 2.代码 2.1 const Counter {data() {return {counter: 0}},template:<div>Counter: {{ counter }}</div> }export default Counter 2.2 import Counter from ./t2.jsconst app Vue.createApp({components: {component-a: Counter} })app.mount(#count…

Docker 的数据管理与镜像

Docker 的数据管理与镜像 一、Docker 的数据管理1.数据卷2.数据卷容器3.端口映射4.容器互联&#xff08;使用centos镜像&#xff09; 二、Docker 镜像的创建1.基于现有镜像创建2.基于本地模板创建3.基于Dockerfile 创建 三、Dockerfile 操作常用的指令&#xff1a;1.FROM 镜像2…

科技资讯|三星再申请智能戒指商标,智能穿戴进入更小型化发展

三星正在积极扩展可穿戴设备生态&#xff0c;近日向英国知识产权局提交了名为“Samsung Curio”的新商标&#xff0c;其分类为“Class 9”&#xff0c;可能会用于未来的智能戒指。 智能戒指&#xff1a; 可穿戴计算机本质上的智能手环、智能项链、智能眼镜和智能戒指&#xff1…

【实操干货】如何开始用Qt Widgets编程?(三)

Qt 是目前最先进、最完整的跨平台C开发工具。它不仅完全实现了一次编写&#xff0c;所有平台无差别运行&#xff0c;更提供了几乎所有开发过程中需要用到的工具。如今&#xff0c;Qt已被运用于超过70个行业、数千家企业&#xff0c;支持数百万设备及应用。 在本文中&#xff0…

三维重建_体素重建_空间雕刻法/体素着色法

目录 1. 三角化和体素重建的区别 2. 空间雕刻法 空间雕刻法的一致性定义 空间雕刻法具体实现 基于八叉树的空间雕刻法具体实现​编辑 空间雕刻法效果展示 3. 体素着色法 体素着色法的缺点&#xff1a;不唯一性​编辑 体素着色法不唯一性解决措施​编辑 体素着色发实验环境与…

基于 SVG 的图形交互方案实践

不知道从什么时候起&#xff0c;人们开始喜欢上数字大屏这种“花里胡哨”的东西&#xff0c;仿佛只要用上“科技蓝”这样神奇的色调&#xff0c;就可以让一家公司焕然一新&#xff0c;瞬间变得科技感满满。不管数字大屏的实际意义&#xff0c;是用来帮助企业监控和决策&#xf…

PyTorch DataLoader 报错 “DataLoader worker exited unexpectedly“ 的解决方案

注意&#xff1a;博主没有重写d2l的源代码文件&#xff0c;而是创建了一个新的python文件&#xff0c;并重写了该方法。 一、代码运行日志 C:\Users\Administrator\anaconda3\envs\limu\python.exe G:/PyCharmProjects/limu-d2l/ch03/softmax_regression.py Traceback (most r…

solidity0.8.0的应用案例12:通用可升级合约UUPS

代理合约中选择器冲突(Selector Clash)的另一个解决办法:通用可升级代理(UUPS,universal upgradeable proxy standard)。代码由OpenZeppelin的UUPSUpgradeable简化而成,不应用于生产。 UUPS 作为透明代理的替代方案,UUPS也能解决"选择器冲突"(Selector Cl…

CSDN编程题-每日一练(2023-08-25)

CSDN编程题-每日一练&#xff08;2023-08-25&#xff09; 一、题目名称&#xff1a;影分身二、题目名称&#xff1a;小鱼的航程(改进版)三、题目名称&#xff1a;排查网络故障 一、题目名称&#xff1a;影分身 时间限制&#xff1a;1000ms内存限制&#xff1a;256M 题目描述&am…

pnpm无法加载文件 (解决方法 )

现在要运行一个TS的项目&#xff0c;我的电脑上没有安装pnpm&#xff0c;导致我的vscode一直报错无法加载。 pnpm安装&#xff1a; npm install -g pnpm pnpm : 无法加载文件 pnpm : 无法加载文件 C:\Users\HP\AppData\Roaming\npm\pnpm.ps1&#xff0c;因为在此系统上禁止运…

adb shell setprop 、开发者选项

App性能调试详解 Android App性能监控工具 更多系统属性参考 一、开启 GPU Render 的profiling bar&#xff1a; Gpu渲染速度 adb shell setprop debug.hwui.profile true adb shell setprop debug.hwui.profile visual_bars adb shell setprop debug.hwui.profile visual…

GO-vscode远程开发和调试

本文内容主要包括&#xff1a; 概述&#xff1a; 主要就是把代码放到服务器上然后远程去开发和调试 工具&#xff1a; vscode 远程端&#xff1a; linux 一.安装远程插件 vscode安装Remote - SSH&#xff0c;Remote Explorer&#xff0c;Remote Development&#xff0c…

pdf编辑文字怎么编辑?这几种简单编辑方法看一看

pdf编辑文字怎么编辑&#xff1f;PDF文件是一种普遍的文档格式&#xff0c;但是在编辑时却比较困难。幸运的是&#xff0c;有许多PDF编辑器可以帮助我们轻松地编辑PDF文件。本文将介绍一些简单的PDF编辑方法&#xff0c;跟着我一起来看看吧&#xff01; 第一种方法&#xff1a;…

无涯教程-Python - 多线程

运行多个线程类似于同时运行多个不同的程序&#xff0c;但具有以下优点- 一个进程中的多个线程与主线程共享相同的数据空间&#xff0c;因此比起单进程&#xff0c;它们可以更轻松地共享信息或彼此通信。有时称为轻量级进程的线程&#xff0c;它们不需要太多的内存开销。 开始…

Socket基本原理

一、简单介绍 Socket&#xff0c;又称套接字&#xff0c;是Linux跨进程通信&#xff08;IPC&#xff0c;Inter Process Communication&#xff09;方式的一种。相比于其他IPC方式&#xff0c;Socket牛逼在于可做到同一台主机内跨进程通信&#xff0c;不同主机间的跨进程通信。…

webscoket在vue中的使用

项目场景&#xff1a; 提示&#xff1a;项目相关背景&#xff1a; 什么是webscoket&#xff1f;: WebSocket是一种计算机通信协议&#xff0c;通过单个TCP连接提供全双工通信信道。实现了web客户端和服务器之间的实时通信&#xff0c;与传统的HTTP连接相比&#xff0c;允许以…

Android JNI系列详解之CMake编译工具的使用

一、CMake工具的介绍 如图所示&#xff0c;CMake工具的主要作用是&#xff0c;将C/C编写的native源文件编译打包生成库文件&#xff08;包含动态库或者静态库文件&#xff09;&#xff0c;集成到Android中使用。 二、CMake编译工具的使用 使用主要是配置两个文件&#xff1a;CM…

HelpLook 免费版与商业版的比较,帮助您快速选择!

HelpLook 是一款零代码、开箱即用的帮助中心及博客网站搭建工具&#xff0c;只需简单几步&#xff0c;即可帮助企业、机构、个人发布在线品牌内容站点。 HelpLook 提供多个版本方案供不同需求的用户选择&#xff0c;今天想着重跟大家分享免费版和商业版&#xff0c;将从三个方面…

7、Spring_AOP

一、Spring AOP 简介 1.概述 对于spring来说&#xff0c;有三大组件&#xff0c;IOC&#xff0c;ID&#xff0c;AOP aop概述&#xff1a;AOP(Aspect Oriented Programming)面向切面编程。 作用&#xff1a;不改变原有代码设计的基础上实现功能增强 例子 传统打印日志 使用…