Workplace Search 的演变:使用 Elasticsearch 搜索你的私人数据

作者:Dana Juratoni, Aditya Tripathi

Workplace Search 功能将来将与 Elastic Search 合并。 这是你需要了解的内容。

生成式人工智能技术的最新进展为搜索带来了一系列可能性。 随着开发人员构建新的体验,用户正在采用新的搜索使用方式 —— 从用自然语言编写的搜索查询到通过上传图像或语音样本进行搜索。 在 Elastic®,我们一直致力于确保 Elasticsearch® 拥有开发人员构建现代搜索所需的正确机器学习工具。

在我们继续这一旅程的过程中,我们希望分享有关工作场所(Workplace)搜索的一些进展:

  • Elasticsearch 是推荐的工具,用于为未来的内部知识搜索用例构建搜索体验。
  • 独立的 Workplace Search 产品将继续以其当前形式获得支持。 Elasticsearch 将添加新功能,Workplace Search 将获得安全升级和修复。

如果你正在使用独立的 Workplace Search 产品或有兴趣为工作场所搜索用例构建搜索体验,则此博客将为你提供重要信息。

历史背景

当 Swiftype 于 2017 年与 Elastic 联手时,独立的 Workplace Search 产品成为我们产品的一部分。从那时起,我们向 Workplace Search 的流行数据库、文件系统和其他工具添加了许多内容源。 虽然用户喜欢 Workplace Search 包含各种数据源的集成,但有明确的反馈表明,开发人员希望通过透明度和灵活性来调整搜索体验。 这些调优工具仅在直接使用 Elasticsearch 平台时才可用。

随着最近 ChatGPT 和生成式 AI 技术的流行,内部知识搜索用例(即能够搜索所有私人内容源 —— 数据库、知识库、文件系统、协作或票务工具)对我们的用户来说变得越来越重要。 毫无疑问,私人数据的搜索检索和 LLM 在一起效果更好。

Elasticsearch 连接器是未来

客户喜欢使用 Workplace Search 内容源

使用 Workplace Search 产品的客户喜欢通过内容源提取数据、在搜索体验中使用索引数据以及使用内置工具管理数据和搜索的简单性。 这些功能不会消失,而是会作为我们 Elastic Search 产品的一部分不断发展 —— 其中一些工作从早期的 8.x 版本开始。 内容源已被连接器 (connectors) 取代和提升为一种 Elastic 集成。 这些连接器直接写入搜索优化的 Elasticsearch 索引,而不是使用使用抽象隐藏索引 (以 . 为开始的系统索引)。 通过这样做,利用平台功能(例如与第三方 transformer 模型集成)来转换索引数据的能力变得直观且易于配置。 因此,设置搜索体验比以往更加灵活,并且 Elasticsearch 本机功能提供了多种数据和搜索管理方式。

Elastic 连接器的典型部署

内部知识搜索用例最常见的架构涉及通过原生连接器和/或自我管理连接器客户端将私有组织数据引入 Elastic。 然后,自我管理的搜索应用程序会公开最终授权用户通过搜索体验查看的数据。

两个选项:Elastic Cloud 上的原生连接器或自托管客户端

连接器可作为原生连接器直接在 Elastic Cloud 部署中使用,无需额外的基础设施。 如果你更喜欢自行托管原生连接器,则可以将它们用作连接器客户端,以便在你自己的基础设施上轻松部署和自我管理,无需进行开发。 为此,你可以选择从源运行连接器或通过 Docker 进行部署。 连接器客户端是开放代码的,可以进行定制以满足你的特定需求。 此外,你可以利用我们的连接器框架创建新的连接器客户端,与我们当前目录中可能未涵盖的数据源集成。

在我之前的文章中,有一个例子 “Enterprise:使用 MySQL connector 同步 MySQL 数据到 Elasticsearch”。

转换数据以支持你的搜索

同步内容被索引到常规搜索优化的 Elasticsearch 索引,这些索引可直接在你的搜索体验中使用。 默认情况下,连接器特定逻辑和捆绑的 ent-search-generic-ingestion 管道会按照部署中的配置提取和转换数据。 对于更高级的用例,可以使用以下工具过滤和转换数据:

  • 基本同步规则,对于所有连接器都是相同的
  • 用于数据源级别远程过滤的高级同步规则
  • 适用于连接器客户端的自我管理提取服务
  • 自定义管道过滤,然后通过摄取管道持久化到 Elasticsearch(请阅读搜索中的摄取管道以了解更多详细信息。)
  • 摄取管道特别强大,因为它们为 ML 模型(例如 ELSER)以及通过连接器索引的任何私有数据提供了极其易于访问的集成点。

使用 Elastic Search 构建体验

一旦你在 Elasticsearch 中拥有数据,你就可以使用 Search UI 和 SearchKit 等前端组件项目构建自己的自定义搜索体验。 我们的内部知识搜索示例应用程序向你展示了如何使用现有工具开始使用。

Javascript 客户端库使你能够轻松构建搜索或将搜索集成到你的 Web 应用程序中,或使用众多 Elasticsearch 客户端库之一。

我们正在快速添加功能以使搜索更加强大。 使用 Elasticsearch 构建你的内部搜索系统,你可以在这些功能发布后立即使用它们。

  • Elasticsearch 支持向量、语义、混合和生成式 AI 搜索用例。 查看我们的一些语义和向量搜索功能,包括强大的开箱即用的稀疏向量模型。 在 8.11 中,此模型已正式发布,只需单击几下即可将其应用于使用 Elastic 连接器或网络爬虫写入的数据。
  • 借助基于搜索模板的完全可定制的搜索应用程序 API,如果你的用例需要的话,这个新 API 可以抽象化 Elasticsearch Query DSL 的学习曲线。 你可以随时使用 Query DSL 深入了解详细信息。
  • 新的搜索管理工具可让你直接管理特定查询的结果,例如提升或隐藏结果,并以编程方式使用同义词管理 API。

Workplace Search 产品和 workplace search 用例

独立的 Workplace Search 产品将继续成为受支持的体验,因此虽然建议迁移到新功能,但这不是必需的。 任何希望提升内部知识搜索以包括语义搜索、向量搜索或基于聊天提示的体验的用户都将从过渡到使用 Elastic 连接器中受益。 在 Elastic Search 的支持下,企业中的工作场所搜索用例范围取得了许多引人注目的进步。 现在是考虑升级内部知识搜索的好时机,以使其为你的用户带来惊人的体验!

为你提供的资源

  • 用于为你的内部知识源构建搜索体验的示例应用程序
  • Elastic Search 和 Workplace Search 功能比较(请参阅我们文档中的表格)
  • 新的! 搜索实验室在 GitHub 上有代码 notebooks、工程博客和示例项目。
  • 你知道 Elasticsearch 是向量数据库超集吗?

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或引用了第三方生成人工智能工具,这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权,我们对其内容、操作或使用不承担任何责任,也不对你使用此类工具可能产生的任何损失或损害负责。 使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。 你提交的任何数据都可能用于人工智能培训或其他目的。 无法保证你提供的信息将得到安全或保密。 在使用之前,你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标记是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。 所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:https://github.com/elastic/elasticsearch-labs/tree/main/example-apps/internal-knowledge-search

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/157338.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

陌陌附近人打招呼脚本,可自动回复消息,按键精灵开源脚本

用按键写的一个陌陌自动打招呼发送指定话术消息的一个脚本,它还会检测对方的消息,然后自动回复指定信息,下面是UI界面和代码,你可以直接粘贴到自己的按键精灵里面运行,不会出错,已经测试过。 UI界面&#…

基于 selenium 实现网站图片采集

写在前面 有小伙伴选题,简单整理理解不足小伙伴帮忙指正 对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对…

腾讯待办关停之后,如何提醒待办事项?

如果你之前使用腾讯待办这款小程序来记录待办事项并设置提醒,就会发现近日弹出的“业务关停通知”公告,由于业务方向调整,腾讯待办将于2023年的12月20日全面停止运营并下架,这表示以后无法继续使用了。但是腾讯待办关停之后&#…

别再吐槽大学教材了,来看看这些网友强推的数学神作!

前言 关于大学数学教材的吐槽似乎从来没停止过。有人慨叹:数学教材晦涩难懂。错!难懂,起码还可以读懂。数学教材你根本读不懂;也有人说:数学教材简直就是天书。 数学教材有好有坏,这话不假,但更…

学会使用这个平台,教你制作出色的产品画册?

产品画册是企业和用户之间的桥梁,它可以第一时间给用户传递我们企业的最新产品信息。如何制作一本精美的产品画册呢? 这个不难,给大家推荐一款免费实用的在线制作工具FLBOOK ,用这个平台可以轻松制作精美电子产品画册。 在制作产…

Python递归函数的定义和几个小例子

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码 递归函数 (1)什么是递归函数? 我们都知道,一个函数可以调用其他函数。如果这个函数在内部调用它自己,那么这个…

纯前端模板文件下载如何精确控制下载的文件名字

在写项目的时候,遇到了一个需要把给定的文件放到页面中,然后用户点击下载按钮将这个文件下载下来,我将其存入了云服务之中(这个云服务是不会清空的,内存又不值几个钱),但是当我下载的时候,下载的文件名是存…

「校园 Pie」 系列活动正式启航,首站走进南方科技大学!

PieCloudDB 社区校园行系列活动「校园 Pie」已正式启动。「校园 Pie」旨在促进数据库领域的学术交流,提供一个平台让学生们了解最新的数据库发展趋势和相关技术应用。 在「校园 Pie」系列活动中,PieCloudDB 社区将携拓数派技术专家,社区大咖…

LLM建模了什么,为什么需要RAG

LLM近期研究是井喷式产出,如此多的文章该处何处下手,他们到底又在介绍些什么、解决什么问题呢?“为学日增,为道日损”,我们该如何从如此多的论文中找到可以“损之又损以至于无”的更本质道或者说是这个方向的核心模型。…

轻松玩转华为MateX5分屏功能,乐趣层出不穷!

✅小窗交互,沉浸体验不打断; ✅分区截屏,花式截图,一招搞定; ✅跨屏拖拽,随心分享易如反掌; ✅悬停视频会议,沟通效率大不同。

广州华锐互动VRAR:利用VR开展刑事案件公安取证培训,沉浸式体验提升实战能力

随着科技的飞速发展,虚拟现实(VR)技术为我们的生活和工作带来了前所未有的便利。近年来,VR技术在刑事案件公安取证培训中的应用逐渐显现出其独特优势。通过模拟真实的犯罪现场,VR技术为学员提供了沉浸式的体验,使他们在安全的环境…

LeetCode---117双周赛---容斥原理

题目列表 2928. 给小朋友们分糖果 I 2929. 给小朋友们分糖果 II 2930. 重新排列后包含指定子字符串的字符串数目 2931. 购买物品的最大开销 一、给小朋友们分糖果I 看一眼数据范围,如果没有啥其他想法思路就直接暴力,时间复杂度O(n^2) 思路&#x…

GB28181学习(十六)——基于jrtplib实现tcp被动和主动收流

前言 GB/T28181-2022实时流的传输方式介绍:https://blog.csdn.net/www_dong/article/details/134255185 tcp passive收流 流程图 注意: m字段指定传输方式为TCP/RTP/AVP;sdp信息中增加"asetup:passive";SIP服务器启…

STM32踩坑:LAN8720未接网线,上电后再接网线,网络模块无法正常使用

LAN8720未接网线,上电后再接网线,网络模块无法正常使用 一、问题描述 最近因为做的项目出了BUG,STM32 单片机在未接网线的状态下,上电一段时间后,将网线插入网口后,IP地址ping不通,网络模块无…

股票魔法师第二阶段趋势模板选股公式,寻找上涨趋势

对于股票运行的阶段,不同的股票分析方法有着不同的划分方式。从传统的主力运作分析,可以分为吸筹、洗盘、试盘、拉升、出货五个阶段。在波浪理论中,一个完整的上升或下降周期包含8浪(其中5浪是主浪、3浪是调整浪)。在缠…

Unity中Shader纹理的多级渐远Mipmap

文章目录 前言一、什么是Mipmap二、Mipmap能带来什么好处1、增加缓存命中率,减少像素抖动感2、可配合质量设置来分级加载,减少不同配置下的内存 二、我们在Shader中实现一下该效果1、我们先布置一个简单的棋盘格,用于测试纹理的多级效果2、我…

vue3 + ts项目(无vite)报错记录

记录项目创建后遇到的报错 1.类型“Window & typeof globalThis”上不存在属性“_CONFIG”。ts(2339) 问题描述: 使用全局 window 上自定义的属性,TypeScript 会报属性不存在 解决:需要将自定义变量扩展到全局 window 上&#xff0c…

MetaCyc、KEGG傻傻分不清?

今天小编从以下三点给大家唠一唠:MetaCyc数据库介绍、与KEGG比较、使用方法。 一、MetaCyc数据库介绍 MetaCyc全称Metabolic Pathways From all Domains of Life,属于BioCyc子数据库,BioCyc是一个专注于代谢通路的高质量数据库。MetaCyc是一个…

完整版指南:企业网络中的VXLAN-BGP-EVPN

随着互联网的发展,数据中心的数量和规模呈爆炸性增长趋势。数据中心业务不断增加,用户需求不断提高。随之而来的问题是数据中心的功能变得越来越复杂,运维管理变得越来越困难。VXLAN-BGP-EVPN的出现为企业网络带来了无限的可能性。 什么是VX…