Elasticsearch 数据提取 - 最适合这项工作的工具是什么?

作者:来自 Elastic Josh Asres

了解在 Elasticsearch 中为你的搜索用例提取数据的所有不同方式。

对于搜索用例,高效采集和处理来自各种来源的数据的能力至关重要。无论你处理的是 SQL 数据库、CRM 还是任何自定义数据源,选择正确的数据采集工具都会对你的 Elasticsearch 体验产生重大影响。在本博客中,我们将探索 Elastic Stack 的三种搜索数据采集工具:Logstash、客户端 API 以及我们的 Elastic Native Connectors + Elastic Connector Framework。我们将深入探讨它们的优势、理想用例以及它们最擅长处理的数据类型。

Logstash,集中、转换和存储你的数据

概述

Logstash 是一个功能强大的开源数据处理管道,可采集、转换数据并将数据发送到各种输出。Logstash 是 Elastic Stack 的瑞士军刀,被广泛用于日志和事件数据处理,为数据采集提供了多功能的 ETL 工具。

主要功能和优势

Logstash 的突出功能之一是其丰富的插件生态系统,支持各种输入、过滤和输出插件。这个广泛的插件库允许在数据处理中实现显著的自定义和灵活性。用户可以使用管道配置文件定义复杂的数据转换和丰富管道,使其成为原始数据需要大量预处理的场景的理想选择。

请参阅下面的 Logstash 管道示例,该管道从文件中提取访问日志,使用过滤器丰富数据,并将其发送到 Elasticsearch。

input {
  file {
    path => "/tmp/access_log"
    start_position => "beginning"
    }
}

filter {
  if [path] => "access" {
    mutate { replace => { "type" = "apache_access" } }
    grok {
        match => { "message" = "${ COMBINEDAPACHELOG}" }
    }
  }
  date {
    match => [ "timestamp", "dd/MMM/yyyy: HH: mm:ss Z" ]
  }
}


output {
  elasticsearch {
    {
      cloud id => "<cloud id›" 
      cloud_auth => "<cloud auth>"
    }
  }
}

一个常见的用例是从数据库中提取数据。让我们以前面的示例为例,并对其进行修改以使用 Logstash 的 JDBC 输入插件,该插件允许你从任何具有 JDBC 接口的数据库(例如 Oracle DB)中提取数据。使用 SQL 查询,你可以定义要提取的数据。

input {
  jdbc {
    jdbc_driver_library => "mysql-connector-java-5.1.36-bin.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://localhost:3306/mydb"
    jdbc_user => "mysql"
    parameters => { "favorite_artist" => "Beethoven" }
    schedule => "* * * * *"
    statement => "SELECT * from songs where artist = :favorite_artist"
  }
}

output {
  elasticsearch {
    {
      cloud id => "<cloud id›" 
      cloud_auth => "<cloud auth>"
    }
  }
}

Logstash 的另一个用例是结合使用 Elasticsearch 输入和输出插件,这允许你将数据从一个 Elasticsearch 集群提取和迁移到另一个 Elasticsearch 集群。

input {
  elasticsearch {
    # Specify the host information of the source ES cluster. 
    hosts =>  ["http://localhost:9200"]
    # Specify auth for the source ES cluster. 
    user => "xxxxxx"
    password => "xxxxxx"
    index = "«source_index_name>"
    scroll = "5m"
    size = 1000
  }
}
output {
  elasticsearch {
    # Specify the host information of the destination ES cluster. 
    hosts =>  ["http://destination.cluster:9200"]
    # Specify auth for the destination ES cluster. 
    user => "xxxxxx"
    password => "xxxxxx"
    index => "<destination_index_name>"
    action => "index"
    scroll = "5m"
    size = 1000
  }
}

最适合

Logstash 最适合在将数据索引到集群之前需要大量丰富数据或希望集中从各种来源获取数据的用例。但需要记住的一点是,Logstash 确实需要你在基础设施中的某个 VM 中托管和管理它(无论是本地还是云提供商)。如果你正在为你的用例寻找更轻量级的东西,请继续阅读以了解有关我们的语言客户端和连接器的更多信息!

Elasticsearch 客户端

Elasticsearch 客户端是 Elastic 提供的官方库,允许开发人员从他们喜欢的编程环境与 Elasticsearch 集群进行交互。这些客户端支持 Java、JavaScript、Python、Ruby、PHP 等语言,提供一致且简化的 API 来与 Elasticsearch 进行通信。

我们的客户端提供众多优势,可简化和增强你与 Elasticsearch 集群的交互。简化的 API、特定于语言的库、性能优化和全面支持使它们成为开发人员不可或缺的工具。这使开发人员能够根据你的特定需求构建强大、高效且可靠的搜索应用程序。

我们目前提供以下编程语言的语言客户端:

  • Java Client

  • Java Low Level REST Client

  • JavaScript Client

  • Ruby Client

  • Go Client

  • .NET Client

  • PHP Client

  • Perl Client

  • Python Clients

  • Rust Client

  • Eland Client

原生连接器和连接器框架

https://www.elastic.co/guide/en/enterprise-search/current/connectors-apis.html

概述

Elastic Native Connectors 是 Elasticsearch 中的内置集成,可帮助将数据从各种来源直接无缝传输到 Elasticsearch 索引中。这些连接器设计为开箱即用,只需极少的设置和配置,并针对 Elastic Stack 中的性能进行了优化。

除了我们的 Native Connectors,我们还有 Elastic Connector Framework,它使开发人员能够自定义现有的 Elastic 连接器客户端或使用我们基于 Python 的框架为不受支持的第三方数据源构建全新的连接器。

主要功能和优势

Elastic Native Connectors 最显著的优势之一是易于使用。你需要做的就是进入 Kibana 并使用我们简单的配置 UI 连接数据源(或者如果你更喜欢配置为代码,你可以使用我们的 Connector APIs)。

我们的连接器的另一个强大优势是支持各种第三方的连接器数量,例如:

  • MongoDB
  • 各种 SQL DBMS,例如 MySQL、PostgreSQL、MSSQL 和 OracleDB
  • Sharepoint Online
  • Amazon S3
  • 还有更多。完整列表可在此处查看

我们的原生连接器支持完整和增量同步以及同步调度,并且能够通过同步规则过滤要导入 Elastic 的数据。另一个强大的功能是能够将我们的导入管道与原生连接器结合使用,这允许你在导入数据时对数据执行各种转换。这还包括使用推理管道,供那些想要将这些文档中的文本向量化以执行语义搜索的人使用。

最适合

Elastic Native Connectors 为数据采集提供了许多好处,包括与 Elastic Stack 的无缝集成、简化的设置、广泛的受支持数据源、优化的性能和强大的安全功能。这些优势使其成为希望简化数据采集流程和增强搜索功能的组织的绝佳选择。使用我们的连接器框架,你还可以进一步定制现有的连接器或构建新的连接器。尽管如上所述,该框架是基于 Python 的,因此如果你想使用更熟悉的语言来采集数据,我们建议你查看语言客户端。

总结

选择正确的数据采集工具取决于你的用例的具体需求以及数据所在的位置。Logstash 在需要通过集中采集进行复杂数据转换的场景中表现出色,但确实带来了管理开销,并且其配置文件也有些复杂。我们的 Elasticsearch 客户端让你可以最大程度地自由地使用你最熟悉的编程语言构建自己的采集功能。最后,Elastic Native Connectors 为第三方数据源提供了简化的集成和管理,而我们的 Connector Framework 允许与尚未支持的数据源进行自定义集成。

通过了解每种工具的优势和最佳用例,你可以做出明智的决策,确保你的数据得到有效采集、索引并准备好进行搜索,从而能够更快、更准确地洞察以解决你的用例。

有关更深入的信息,请查看 Logstash、Elastic Native Connectors + Connector Framework 和我们的官方语言客户端的官方文档。

你可以使用来自任何来源的数据构建搜索。查看此网络研讨会以了解 Elasticsearch 支持的不同连接器和来源。
准备好亲自尝试一下了吗?开始免费试用。

原文:Elasticsearch Data Ingestion - What's the Best Tool for the Job? — Elastic Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/744197.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Excel】单元格如何设置可选项、固定表头

设置可选项 固定表头&#xff1a;视图---冻结窗口

SD-WAN带宽对使用的影响及如何规划

SD-WAN&#xff08;软件定义广域网&#xff09;是一种创新技术&#xff0c;旨在优化和提升企业网络的性能、可靠性和安全性。带宽在SD-WAN的使用中起着关键作用&#xff0c;而确定SD-WAN专线所需的带宽大小需要综合考虑多个因素。本文将深入探讨SD-WAN带宽对使用的影响以及如何…

试析C#编程语言的特点及功能

行步骤&#xff0c;而不必创建新方法。其声明方法是在实例化委托基础上&#xff0c;加一对花括号以代表执行范围&#xff0c;再加一个分号终止语句。 2.3.3 工作原理 C#编译器在“匿名”委托时会自动把执行代码转换成惟一命名类里的惟一命名函数。再对存储代码块的委托进行设…

go语言day4 引入第三方依赖 整型和字符串转换 进制间转换 指针类型 浮点数类型 字符串类型

Golang依赖下载安装失败解决方法_安装go依赖超时怎么解决-CSDN博客 go安装依赖包&#xff08;go get, go module&#xff09;_go 安装依赖-CSDN博客 目录 go语言项目中如何使用第三方依赖&#xff1a;&#xff08;前两步可以忽略&#xff09; 一、安装git&#xff0c;安装程序…

提升工作效率的实体和虚拟工具推荐

在现代工作中&#xff0c;我们常常需要利用各种工具来提高工作效率。本文将介绍一款实体工具和一款虚拟工具&#xff0c;它们都能够有效地提升工作效率&#xff0c;让我们更高效地完成任务。 实体工具&#xff1a;金鸣表格文字识别大师 金鸣表格文字识别大师是一款优秀的文字识…

使用 Spring Boot 3.x 与图形学技术,添加电子印章防伪特征

使用 Spring Boot 3.x 与图形学技术,添加电子印章防伪特征 在电子办公和无纸化办公日益普及的今天,电子印章的使用越来越广泛。然而,如何确保电子印章的安全性和防伪能力成为了一个亟待解决的问题。本文将通过 Spring Boot 3.x 和图形学技术,深入探讨如何为电子印章添加防…

Linux CentOS 环境 MySQL 主从复制集群搭建

环境说明 MySQL版本8.4.0 操作系统 Linux CentOS 7.9 官网文档 https://dev.mysql.com/doc/refman/8.4/en/replication-configuration.html 以下代码片段中带分号都是在MySQL命令行( mysql -uroot -p)中执行 1. 首先在两个节点上安装数据库 参考 Linux CentOS安装MySQL8.0 …

UnityShader SDF有向距离场简单实现

UnityShader SDF有向距离场简单实现 前言项目场景布置连连看画一个圆复制一个圆计算修改shader参数 鸣谢 前言 突然看到B站的一个教程&#xff0c;还不错&#xff0c;记录一下 项目 场景布置 使用ASE连连看&#xff0c;所以先要导入Amplify Shader Editor 连连看 画一个…

基于 ESP8266 和 MQ 气体传感器的微信告警系统设计与实现

接线: ESP8266MQ3vVCCGND GND A0 A0微信通知截图: 摘要:本文主要探讨了一种利用 ESP8266 微控制器与 MQ 气体传感器构建的气体检测微信告警系统。详细阐述了系统的硬件组成、软件设计以及与微信平台的交互机制。通过该系统,能够实时监测环境中的气…

调幅信号AM的原理与matlab实现

平台&#xff1a;matlab r2021b 本文知识内容摘自《软件无线电原理和应用》 调幅就是使载波的振幅随调制信号的变化规律而变化。用音频信号进行调幅时&#xff0c;其数学表达式可以写为: 式中&#xff0c;为调制音频信号&#xff0c;为调制指数&#xff0c;它的范围在(0&…

JS(JavaScript)的复合类型详解

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

【HashMap和HashSetyi以及散列表的拉链法,线性探测法详解】

&#x1f308;个人主页&#xff1a;SKY-30 ⛅个人推荐&#xff1a;基于java提供的ArrayList实现的扑克牌游戏 |C贪吃蛇详解 ⚡学好数据结构&#xff0c;刷题刻不容缓&#xff1a;点击一起刷题 &#x1f319;心灵鸡汤&#xff1a;总有人要赢&#xff0c;为什么不能是我呢 &…

Arduino - 电机

Arduino - Motor Arduino - 电机 参考: Arduino - 电机 Arduino控制舵机 舵机抖动的解决方法 Arduino控制MG995/MG996 360舵机连续旋转 We are going to learn: 我们将学习&#xff1a; Which types of motors can use with Arduino 哪些类型的电机可以与Arduino一起使用…

监控https证书的到期时间

实现该功能&#xff0c;不用借助第三方库&#xff0c;用go的标准库就足够了… 以下程序可以获取这些域名的SSL证书的到期时间&#xff0c;并在证书距离现在不足7天过期时打印提示&#xff1a; package mainimport ("crypto/tls""fmt""net""…

grpc学习golang版( 一、基本概念与安装)

系列文章目录 第一章 grpc基本概念与安装 第二章 grpc入门示例 文章目录 一、基本介绍1.1 什么是rpc1.2 什么是grpc1.3 grpc的作用1.4 grpc的应用场景1.5 protoc 与Protobuf 二、安装2.1 Mac 安装 protoc 及代码生成插件2.2 安装用于生成 go 和 grpc 相关的工具2.3 卸载protobu…

Emacs之显示blame插件:blamer、git-messenger(一百四十四)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

《mysql篇》--mysql常用命令

数据库操作 显示当前数据库 show databases;(database 后面要加s) 这行命令用来显示当前有多少个数据库 //mysql中有自带的四个库 创建数据库 create database 数据库名(name); 创建一个数据库 create dabase if not exists <数据库名(name)>; //如果系统有与当前创建…

ITIL发展之路:从v3到v4的演变与应用

在当今瞬息万变的技术环境中&#xff0c;IT服务管理&#xff08;ITSM&#xff09;已成为企业运营的关键支柱。ITIL&#xff08;Information Technology Infrastructure Library&#xff0c;信息技术基础设施库&#xff09;作为全球公认的ITSM最佳实践框架&#xff0c;帮助组织在…

google浏览器无法访问大端口的处理方式

属性的目标中添加后缀内容或者修改后台端口为常用端口&#xff0c;比如8080等。 “C:\Program Files\Google\Chrome\Application\chrome.exe” --explicitly-allowed-ports8888

七天速通javaSE:第三天 程序控制结构:练习题

文章目录 前言一、基础1.计算从0~100之间奇数之和和偶数之和2. 用for循环输出0~1000之间能被5整除的数&#xff0c;每行输出三个 二、进阶1. 九九乘法表2.等边三角形 前言 本文主要讲解三种基本程序控制结构的练习题&#xff0c;以期熟练掌握顺序、选择、循环三种基本结构 一、…