kettle介绍-Step之CSV Input

CSV Input/CSV 文件输入介绍

CSV 文件输入步骤主要用于将 CSV 格式的文本文件按照一定的格式输入至
流中
在这里插入图片描述

  • Step name:步骤的名称,在单一转换中,名称必须唯一
  • Filename:指定输入 CSV 文件的名称,或通过单击右边的“浏览”按钮指定本地的 CSV 文件
  • Delimiter:指定分隔列的符号,一般 csv 文本文件默认的是逗号。如图 所示,里面的逗号就是列分隔符
    在这里插入图片描述
  • Enclosure:指定一个数据的封装符号,一般 csv 文本文件默认的是双引号。如图上图所示,双引号就是封闭符
  • NIO buffer size:指定读取缓冲区的大小,即一次从源读取的字节数。如果读取的字节数超过设置的缓冲区大小,则会报错
  • Lazy conversion?:如勾选,则针对行集中的 String 类型,将按照二进制字节流的形式(如果读者有 Java 语言开发背景,可以理解为 byte[]),从数据源读取数据,性能比直接读取字符串略高。所以,这里翻译为“允许以字节流的形式读取字符串”更为准确。从实际测试情况看,该参数针对非常长的字符串能够提速 3%左右;对于一般长度的字符串,观测不到差别
  • Header row present?:如勾选,则会把字段名称作为一行数据显示
  • Add filename to result:勾选此项,可把转换的结果文件名存进流中,使其可以在其它步骤中被获取
  • The row number field name(optional):为每行数据添加行号,并指定行号的字段名称
  • Running in parallel?:当读取的文件内容非常大时,可设置此步骤的多个实例(步骤副本),同时勾选此控件,则每个实例同时读取 CSV 文件的单独部分,以提高效率
  • New line possible in fields?:如果文件中存在回车或换行。不勾选时,则会将回车或换行当作一行数据处理。勾选时,则会将回车或换行识别为一个字符串
  • File encoding:下拉框选择需要的文件格式编码
  • name:输入行集的字段名称
  • Type:指定字段类型:字符串,日期,数字,布尔值,整数,BigNumber,可序列化或二进制
  • Format:格式化字符串时需要。例如需要格式化日期与时间,那么可以用 yyyy-MM-dd’T’HH:mm:ss.XXX,注意其中单引号限定部分。如果需要在日期格式中使用原始字母,那么必须用单引号限定,否则将当成表达式解析。注:需与类型关联使用
  • Length:对于数字:数字的有效长度;对于字符串:字符串的总长度;对于日期:字符串的打印输出长度(例如,输入 4 只会返回年份)
  • Precision:对于数字:小数位数
  • Currency:货币符号,主要用在财务场景,一般放在货币金额数字的前缀或者后缀。例如人民币一般用的¥,美元一般用$,欧元一般用€。该控件对于步骤本身不产生影响,只是对该字段的货币类型进行备注
  • Decimal:在字符型转小数型(BigNumber)时,识别字符串中的小数点。如字“123,456.789”和“123456.789”转 BigNumber 型时,设置十进制为“.”,则能转变为 123456.789。有意思的是这里除了能识别“.”,还能适配其他字符,如“,”、“|”、“_”、甚至字母“a”都可以。只要字符被替换成“.”之后整个字符串是符合数字格式的就行。注意不管设置多长的字符串,这里始终只取第一个字符作为小数点符号
  • Group:在字符型转小数型(BigNumber)时,识别字符串中的分隔符(常见的千位分隔符)。如字符串“6,123,456.789”转 BigNumber 型时,设置分组为“,”,则能转变为 6123456.789。有意思的是这里除了能识别“,”,还能适配其他字符,如“.”、“|”、“_”、甚至字母“a”都可以。只要字符被转换后整个字符串是符合数字格式的就行。另外分组可以结合小数点符号做一些更有意思的事情,如有一个字符串如“123.456,789”,将小数点符号设为“,”,将分组设为“.”,可转换“123,456.789”
  • Trim Type:下拉框根据需要选择去除空格的方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/522518.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript - 请问你是如何中断forEach循环的

难度级别:中高级及以上 提问概率:65% forEach与原始for循环不同的是,并不能通过简单的break或是return中断循环,意思就是不管需要循环的数组有多长,一旦使用了,就会将数组所有元素循环一遍才会结束。其实回答这道题,就要想到forEach的使…

【Kafka】Kafka安装、配置、使用

【Kafka】安装Kafka 1. 安装Kafka2. Kafka使用2.0 集群分发脚本xsync(重要)2.0.1 scp命令2.0.2 rsync远程同步工具2.0.3 写一个集群分发脚本xsync (Shell 脚本) 2.1 Zookeeper安装2.2 对Kafka进行分发2.2.1 执行同步脚本2.2.2 三台云主机配置Kafka环境变量 1. 安装Kafka Kafka…

java自动化-03-04java基础之数据类型举例

1、需要特殊注意的数据类型举例 1)定义float类型,赋值时需要再小数后面带f float num11.2f; System.out.println(num1);2)定义double类型,赋值时直接输入小数就可以 3)另外需要注意,float类型的精度问题…

【Spring Cloud Alibaba】9 - OpenFeign集成Sentinel实现服务降级

目录 一、简介Sentinel 是什么如何引入Sentinel 二、服务搭建1.安装Sentinel控制台1.1 下载1.2 启动1.3 访问 2.改造服务提供者cloud-provider服务2.1 引入依赖2.2 添加API2.3 添加配置文件 3.改造cloud-consumer-feign服务3.1 引入依赖3.2 添加Feign接口3.3 添加服务降级类3.4…

python 日期字符串转换为指定格式的日期

在Python编程中,日期处理是一个常见的任务。我们经常需要将日期字符串转换为Python的日期对象,以便进行日期的计算、比较或其他操作。同时,为了满足不同的需求,我们还需要将日期对象转换为指定格式的日期字符串。本文将详细介绍如…

短袖什么材质最舒服?教你夏季如何选高品质T恤

因为天气转热,不少朋友最近想挑选一些合适自己的短袖,但是因为市面上的衣服质量参差不齐,消费者总是面临着选择难题,甚至还有一些做工极差、面料闷热不透气的衣服。 所以我特别深入进行众多衣服短袖测评与对比分析,整…

HTML5+CSS3+JS小实例:圣诞按钮

实例:圣诞按钮 技术栈:HTML+CSS+JS 效果: 源码: 【HTML】 <!DOCTYPE html> <html lang="zh-CN"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0&…

Xshell连接虚拟机失败,没有ssh连接窗口

Xshell连接虚拟机失败&#xff0c;没有ssh连接窗口 连接失败的原因有很多&#xff0c;我只是记录一下我失败的原因以及改正方法 前提 本机ping虚拟机可以得到响应&#xff0c;说明ip配置没问题 问题 但是&#xff0c;在用xshell连接时&#xff0c; 在进行如图配置点击连接时…

Spring Boot集成JWT快速入门demo

1.JWT是什么&#xff1f; JWT&#xff0c;英文全称JSON Web Token&#xff1a;JSON网络令牌。为了在网络应用环境间传递声明而制定的一种基于JSON的开放标准(RFC 7519)。这个规范允许我们使用JWT在客户端和服务端之间传递安全可靠的信息。JWT是一个轻便的安全跨平台传输格式&am…

cuda cudnn pytorch 的下载方法(anaconda)

文章目录 前言cuda查看当前可支持的最高cuda版本显卡驱动更新下载cuda cudnnpytorch配置虚拟环境创建虚拟环境激活虚拟环境 1.直接下载2.conda 下载(清华源&#xff0c;下载速度慢的看过来)添加清华镜像channel下载下载失败 下载失败解决办法1.浑水摸鱼&#xff0c;风浪越大鱼越…

记一次 .NET某管理局检测系统 内存暴涨分析

一&#xff1a;背景 1. 讲故事 前些天有位朋友微信找到我&#xff0c;说他们的WPF程序有内存泄漏的情况&#xff0c;让我帮忙看下怎么回事&#xff1f;并且dump也抓到了&#xff0c;网上关于程序内存泄漏&#xff0c;内存暴涨的文章不计其数&#xff0c;看样子这个dump不是很…

阿里云服务器可以干嘛?能干啥你还不知道么!

阿里云服务器可以干嘛&#xff1f;能干啥你还不知道么&#xff01;简单来讲可用来搭建网站、个人博客、企业官网、论坛、电子商务、AI、LLM大语言模型、测试环境等&#xff0c;阿里云百科aliyunbaike.com整理阿里云服务器的用途&#xff1a; 阿里云服务器活动 aliyunbaike.com…

[大模型]大语言模型量化方法对比:GPTQ、GGUF、AWQ

在过去的一年里&#xff0c;大型语言模型(llm)有了飞速的发展&#xff0c;在本文中&#xff0c;我们将探讨几种(量化)的方式&#xff0c;除此以外&#xff0c;还会介绍分片及不同的保存和压缩策略。 说明&#xff1a;每次加载LLM示例后&#xff0c;建议清除缓存&#xff0c;以…

【Java设计模式】创建型——抽象工厂模式

目录 背景/问题解决方案&#xff1a;抽象工厂模式解析生活场景模拟上一章的案例图解 意图主要解决何时使用如何解决关键代码抽象工厂模式涉及多个角色&#xff1a; 代码示例优点缺点应用场景 背景/问题 在某些情况下&#xff0c;需要创建一系列相关或相互依赖的对象&#xff0…

一些Java面试题

1、 Java语言有哪些特点 1、简单易学、有丰富的类库 2、面向对象&#xff08;Java最重要的特性&#xff0c;让程序耦合度更低&#xff0c;内聚性更高&#xff09; 3、与平台无关性&#xff08;JVM是Java跨平台使用的根本&#xff09; 4、可靠安全 5、支持多线程 2、面向对象和…

07 Python进阶:多线程

python线程概念 在 Python 中&#xff0c;线程&#xff08;Thread&#xff09;是用于实现多任务并发执行的基本单元。线程允许程序同时执行多个部分&#xff0c;每个部分称为一个线程&#xff0c;因此能够提高程序的效率&#xff0c;特别适用于需要同时执行多个任务的情况。下面…

StarRocks实战——华米科技埋点分析平台建设

目录 前言 一、原有方案及其痛点 二、引入StarRocks 三、方案改造 3.1 架构设计 3.2 数据流程 3.3 性能指标 3.4 改造收益 前言 华米科技是一家基于云的健康服务提供商&#xff0c;每天都会有海量的埋点数据&#xff0c;以往基于HBase建设的埋点计算分析项目往往效率上…

2024.4.2-day07-CSS 盒子模型(显示模式、盒子模型)

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 作业 2024.4.2 学习笔记CSS标签元素显示模式1 块元素2 行内元素3 行内块元素4…

Linux | MySQL安装Workbench图形化

环境:rhel8 MySQL8 下载软件包 官网软件包地址&#xff1a; MySQL &#xff1a;&#xff1a; 下载 MySQL Workbenchhttps://dev.mysql.com/downloads/workbench/我这里下载的是 mysql-workbench-community-8.0.24-1.el8.x86_64.rpm 解决依赖 用rpm安装发现缺少依赖 [rooth…

3dmax经常染失败?优化方法提升染质量!

在三维建模和渲染的过程中&#xff0c;优化模型和场景的效率是至关重要的。以下是一些提升效率的方法&#xff1a; 模型简化&#xff1a;在创建模型时&#xff0c;应尽量减少使用的命令和修改器的数量。这是因为命令和修改器越多&#xff0c;消耗的内存和CPU资源也就越多&…