大数据集群数据传输

简单的服务器间的通信示例

netcat,简写为 nc,是 unix 系统下一个强大的命令行网络通信工具,用于在两台主机之间建立 TCP 或者 UDP 连接,并提供丰富的命令进行数据通信。nc 在网络参考模型属于应用层。使用 nc 可以做很多事情:建立连接,发送数据包,监听端口,扫描端口,处理 ip4 和 ip6,和 telnet 不同,nc 会区分错误输出和标准输出,telnet 则都是标准输出。

启动服务端 nc -l 端口号

nl -l 6666

启动客户端

nc 服务端IP 6666

Kafka 类似,但更加强大,下面是一个Kafka 生产者生产数据到topic ,消费者(flink)在topic中消费到数据,将数据落地为文件的案例:

第一步:创建一个topic 

1、topic名称带有明显来源和业务的单词,例如:t_jif_tgcdr

2、topic备份数量小于等于kafka节点数;

3、topic分区数应是备份数的倍数关系;

4、检查topic是否已经存在,如果存在,需另外起名

kafka-topics.sh  \
--bootstrap-server xxx.xxx.xxx.xxx:xxxx \
--create  \
--replication-factor 3 \
--partitions 3 \
--topic  kfk_big_data_study

也许会出现这个警告,就是建议topic 名称

 

查看kafka是否创建成功
kafka-topics.sh --list --bootstrap-server xxx.xxx.xxx.xxx:xxxx |grep study

二、对接表字段

1、对端一定要提供数据的结构;

2、对端要提供数据样例;

3、通过样例判断是txt、json、还是混合数据格式

4、要确定数据是实时、增量、全量问题

5、在数据云调度上创建物理模型并落地hive

6、如需同步行云,需创建物理模型落地行云

这里面我们只介绍自己生产数据, 数据样例:

结构如:

name|age|kungfu

例如

欧阳锋|42|蛤蟆功

三、创建生产者

kafka-console-producer.sh --broker-list xxx.xxx.xxx.xxx:xxxx --topic kfk_big_data_study

四、测试消费

kafka-console-consumer.sh --bootstrap-server xxx.xxx.xxx.xxx:xxxx  --from-beginning --topic kfk_big_data_study

五、创建Flink来消费Topic中的数据

https://nightlies.apache.org/flink/flink-docs-release-1.16/zh/docs/connectors/table/kafka/

set setexecution.checkpointing.interval=30sec;
set parallelism.default=9;
set execution.target=yarn-per-job;
set yarn.application.name=yarn_kfk_big_data_study;
set yarn.application.queue=root|default|hadoop|user-defined;

--创建Kafka表
drop table if EXISTS kafka_big_data_study;
CREATE TABLE IF NOT EXISTS kafka_big_data_study(
name string,
age string,
kungfu string
) WITH (
    'connector' = 'kafka',
    'topic' = 'kfk_big_data_study',
    'properties.group.id'='group_01',
    'properties.bootstrap.servers' = 'xxx.xxx.xxx.xxx:xxxx',
    'scan.startup.mode' = 'earliest-offset',
    'format' = 'csv',
 'csv.ignore-parse-errors' = 'true',
 'csv.allow-comments' = 'true'
);

--创建Sink表
drop table IF EXISTS t_big_data_study;
CREATE TABLE t_big_data_study(
name string,
age string,
kungfu string
) WITH (
    'connector' = 'filesystem',
    'path' = 'hdfs://beh001/gsdx_data/spooldirtohive/study/t_big_data_study/',
    'format' = 'csv',
    'csv.field-delimiter' = '|'
);

--从kafka表插入数据到Sink表
insert into t_big_data_study
select 
name ,
age ,
kungfu
from kafka_big_data_study;

将以上脚本保存在一个自定义的sql文件中,然后使用下面的命令调用
 

sql-client.sh -f study.sql 

看到这个情况说明flink job已经启动;

接下来,生产一条消息看看是否会落地到hdfs目录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/738910.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

探索Elastic Search:强大的开源搜索引擎,详解及使用

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引…

如何使用手机号查快递?2个方法,包裹信息全掌握

无论是网购、亲友间寄送礼物还是工作中的文件传递,快递都扮演着至关重要的角色。然而,有时候我们可能会忘记自己的快递单号,或者在收到快递时没有留意保存相关信息。 这时候,如果能通过手机号查询快递,无疑会大大方便…

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注…

Spire.PDF for .NET【文档操作】演示:设置 PDF 文档的 XMP 元数据

XMP 是一种文件标签技术,可让您在内容创建过程中将元数据嵌入文件本身。借助支持 XMP 的应用程序,您的工作组可以以团队以及软件应用程序、硬件设备甚至文件格式易于理解的格式捕获有关项目的有意义的信息(例如标题和说明、可搜索的关键字以及…

无源编缆测尺助力料场实现自动化堆取料作业

随着工业4.0时代的到来,智能化、无人化成为现代工业发展的重要趋势。在港口码头、钢铁冶金、焦化等高耗能行业中,如何实现物料的精准测量与无人化操作,成为企业提高生产效率、降低人工成本的关键。武汉市微深节能科技有限公司凭借其先进的分段…

如何配置taro

文章目录 step1. 全局安装wepacksetp2. 使用npm安装tarostep3. 项目初始化可能出现的问题 使用taro时需要在本地配置好nodejs环境,关于如何配置nodejs可参考我的这篇博文 如何配置nodejs环境 step1. 全局安装wepack 使用指令npm install webpack -g即可 安装完成…

电脑不小心删除的文件怎么恢复?4个必备恢复方法!

“刚刚在对电脑里的某些垃圾文件进行清理时,我一不小心误删了比较重要的数据。这些误删的数据还有机会恢复吗?希望大家帮帮我,非常感谢!” 在这个数字化飞速发展的时代,电脑早已成为我们日常生活和工作中不可或缺的一部…

【arm扩容】docker load -i tar包 空间不足

背景: 首先我在/home/nvidia/work下导入了一些镜像源码tar包。然后逐个load进去。当我 load -i dev-aarch64-18.04-20210423_2000.tar包的时候,出现 Error processing tar file(exit status 1): write /9818cf5a7cbd5a828600d9a4d4e62185a7067e2a6f2ee…

如何解决app广告填充率低、广告填充异常,提升广告变现收益?

APP广告变现有助于开发者获得持续的收益来源,由于广告链路的封闭性和复杂化,一旦出现请求配置参数错误、返回广告源信息缺失、素材被拦截等异常,大部分开发者很难及时查清异常情况,导致广告填充率不理想,甚至填充率常常…

KUBIKOS - Cube Monsters

KUBIKOS - Cube Monsters 是一系列 18 个不同的可爱低多边形移动友好怪物角色!每个角色都有自己的动画集。(移动、空闲、攻击、击中、跳跃等)。 +URP支持+18种不同的动物! + 低多边形(400~900个三角形) + 操纵和动画! + 4096x4096 纹理图集 + Mecanim 准备就绪! + 移动…

【第十三课】区域经济可视化表达——符号表达与标注

一、前言 地图最直接的表达就是使用符号表达。使用符号可以把简单的点线面要 素渲染成最直观的地理符号,提高地图的可读性。只要掌握了 ArcGIS 符号制 作的技巧,分析符号并总结出规则,就可以制作符合要求的地图符号。 (一&#…

关于正点原子stm32f103精英板v1的stlink通信失败问题解决方案

由于最新的固件不适配,我们要想其工作要下载007的固件。 https://www.st.com/en/development-tools/stsw-link007.html?dlredirect 版本选择最低的。然后选择windows文件夹,更新程序 然后进keil就能正常识别到了

在线装修管理系统的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,装修队管理,用户管理,装修管理,基础数据管理,论坛管理 前台账户功能包括:系统首页,个人中心,…

不要升级mmkv1.3.5

腾讯有点不负责任的感觉。1.3.5开始直接ban掉了v1.3.5 / 2024-04-24 Drop armv7 & x86 support.,x86和v7a的支持(大概率是这个原因)。 从打包后的包解压可以看到,只有arm64-v8a和x64目录里面有库。而1.3.4打包解压后&#x…

计算机软件著作权申请流程及费用_快速登记_经验分享收藏级教程

最近需要申请计算机软件著作权,申请流程走了一遍,整理了分享给大家。软件著作权申请流程及费用,软著快速登记、软著材料及问题解答FAQ,阿里云百科阿里云计算机软件著作权登记20天下证,那么如何申请阿里云软件著作权登记…

社交电商商业模式有哪些,2024火爆的模式玩法优势,新零售小程序系统

商业模式一个企业能够盈利的最最重要的问题,如何强调都不过分,先例举几个相对简单的商业模式: 1、二二裂变模式 购买一单成为代理之后,获得推荐资格每次分享获得直推奖励20%,推荐2个代理成为团长,获得体检…

【机器学习】半监督学习可以实现什么功能?

目录 一、什么是机器学习二、半监督学习算法介绍三、半监督学习算法的应用场景四、半监督学习可以实现什么功能? 一、什么是机器学习 机器学习是一种人工智能技术,它使计算机系统能够从数据中学习并做出预测或决策,而无需明确编程。它涉及到…

华为---OSPF的DR与BDR(六)

9.6 OSPF的DR与BDR 9.6.1 原理概述 在OSPF的广播类型网络和NBMA类型网络中,如果网络中有n台路由器,若任意两台路由器之间都要建立邻接关系,则需要建立n(n-1)/2个邻接关系,即当路由器很多时,则需要建立和维护的邻接关…

express+vue在线im实现【三】

往期内容 expressvue在线im实现【一】 expressvue在线im实现【二】 本期示例 本期总结 支持各种类型的文件上传,常见文件类型图片,音频,视频等,上传时同步获取音频与视频的时长,以及使用上传文件的缓存路径来作为vi…

51-60 CVPR 2024 最佳论文 | Generative Image Dynamics

在2023年11月,谷歌研究院发布了一项令人瞩目的研究成果——Generative Image Dynamics(生成图像动力学)。这项技术的核心是将静态的图片转化为动态的、无缝循环的视频,而且更令人兴奋的是,这些生成的视频还具有交互性。…