Azure Machine Learning - 什么是 Azure AI 搜索?

Azure AI 搜索(以前称为“Azure 认知搜索”)在传统和对话式搜索应用程序中针对用户拥有的内容提供大规模的安全信息检索。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

file

一、什么是Azure AI搜索

信息检索是任何显示文本和矢量的应用程序的基础。 常见方案包括目录或文档搜索、数据浏览,以及越来越多的基于专有基础数据的聊天式搜索形式。 创建搜索服务时,将使用以下功能:

  • 通过搜索索引进行[全文]和[矢量搜索]的搜索引擎
  • 丰富的索引,[集成了数据分块和矢量化(预览版)]、针对文本的[词法分析],以及用于内容提取和转换的[可选 AI 扩充]
  • 用于[矢量查询]、文本搜索、混合搜索、模糊搜索、自动完成、地理搜索等的丰富查询语法
  • Azure 规模、安全性和覆盖范围
  • 数据层、机器学习层、Azure AI 服务和 Azure OpenAI 级别的 Azure 集成

从体系结构方面来讲,搜索服务位于外部数据存储(包含未编入索引的数据)与客户端应用(向搜索索引发送查询请求并处理响应)之间。

file

在客户端应用中,搜索体验是使用 Azure AI 搜索中的 API 定义的,可能包括相关性调整、语义评分、自动完成、同义词匹配、模糊匹配、模式匹配、筛选和排序。

在整个 Azure 平台上,Azure AI 搜索可以以以下方式与其他 Azure 服务集成:以“索引器”(自动从 Azure 数据源引入/检索数据)和“技能组”(引入 Azure AI 服务(例如图像和自然语言处理)中的可消耗 AI)的形式,或者以引入你在 Azure 机器学习中创建的或在 Azure Functions 内包装的自定义 AI 的形式。

二、搜索服务

在搜索服务本身,两个主要工作负荷是索引编制和查询 。

  • [编制索引]是将内容加载到搜索服务中并使其可供搜索的引入过程。 在内部,入站文本处理为令牌并存储在倒排索引中,入站矢量存储在矢量索引中。 Azure AI 搜索可以编制索引的文档格式为 JSON。 可以上传已汇编的 JSON 文档,或使用索引器检索数据并将其序列化为 JSON。

    通过[认知技能]实现 [AI 扩充]是索引的扩展。 如果源文档中有图像或大型非结构化文本,你可以附加执行 OCR、描述图像、推理结构、翻译文本等操作的技能。 还可以附加执行[数据分块和矢量化]的技能。

  • 当客户端应用将查询请求发送到搜索服务并处理响应时,索引中填充了可搜索的内容后,就会发生[查询]。 所有查询均在控制的搜索索引上执行。

    [语义排名]是查询执行的扩展。 语义搜索对搜索结果处理增加了语言理解,将在语义上最相关的结果提升至顶部。

三、为什么使用 Azure AI 搜索?

Azure AI 搜索非常适合以下应用方案:

  • 搜索与 Internet 隔离的矢量和文本内容。

  • 将异构内容整合到由矢量和文本组成的用户定义索引和填充的搜索索引中。

  • 为生成式 AI 和 RAG 应用[集成数据分块和矢量化]

  • 在文档级别[应用精细访问控制]

  • 将索引编制和查询工作负载分散到专用的搜索服务。

  • 轻松实现搜索相关的功能:相关性优化、分面导航、筛选器(包括地理空间搜索)、同义词映射和自动完成。

  • 将 Azure Blob 存储或 Azure Cosmos DB 中存储的大型无差别文本、图像文件或应用程序文件转换为可搜索的区块。 这是通过[认知技能] (可从 Azure AI 添加外部处理) 在编制索引期间实现的。

  • 添加语言或自定义文本分析。 如果你使用非英语内容,则 Azure AI 搜索支持 Lucene 分析器和 Microsoft 的自然语言处理器。 还可以配置分析器以实现原始内容的专业处理,例如筛选出标注字符,或识别并保留字符串中的模式。

有关特定功能的详细信息,请参阅 [Azure AI 搜索的功能]

四、如何开始使用

在 Azure 门户中使用:功能通过简单的 [REST API]或 Azure SDK(如 [Azure SDK for .NET])公开。 Azure 门户支持通过用于原型制作以及查询索引和技能组的工具进行服务管理和内容管理。

可以通过以下四个步骤来实现核心搜索功能的端到端探索:

  1. [确定层]和区域。 每个订阅只允许一个免费搜索服务。 所有快速入门都可以在免费层级完成。 如需更多容量和功能,则需要有计费层级。

  2. 在 Azure 门户中[创建搜索服务]。

  3. [从“导入数据”向导开始]。 选择内置示例或受支持的数据源,以迅速创建、加载和查询索引。

  4. [使用搜索浏览器作为结束],使用门户客户端来查询刚创建的搜索索引。

或者,也可以以原子步骤创建、加载和查询搜索索引:

  1. 使用门户、[REST API]、[.NET SDK]或其他 SDK[创建搜索索引]。 索引架构决定了可搜索内容的结构。

  2. 使用[“推送”模型]上传内容,以从任意源推送 JSON 文档,或者,如果源数据是[受支持的类型],则使用[“拉取”模型(索引器)]。

  3. 使用门户 [REST API]、[.NET SDK]或其他 SDK 中的[搜索资源管理器][查询索引]。

五、比较各个搜索选项

客户常常询问 Azure AI 搜索与其他搜索相关解决方案有何不同。 下表总结主要区别。

比较对象主要区别
Microsoft Search[Microsoft 搜索]适用于需要在 SharePoint 中查询内容的经过 Microsoft 365 身份验证的用户。 它是现成可用的搜索体验,由管理员进行启用和配置,能够通过连接器接受来自 Microsoft 和其他来源的外部内容。
相对地,Azure AI 搜索对你定义的索引执行查询,填充你拥有的数据和文档(常常来自多个不同的源)。 Azure AI 搜索具有通过[索引器]取一些 Azure 数据源的功能,但你也可将符合你的索引架构的所有 JSON 文档推送到单个统一的可搜索资源。 你还可自定义索引管道,将机器学习和词法分析器纳入其中。 由于 Azure AI 搜索构建为更大型的解决方案中的一个插件组件,因此你可通过任意平台在几乎任意应用中集成搜索功能。

|
| 必应 | [必应系列的搜索 API]在 Bing.com 上搜索索引,以匹配你提交的搜索词。 索引从 HTML、XML 和公共网站上的其他 Web 内容生成。 [必应自定义搜索]构建于同一基础之上,针对 Web 内容类型提供相同的爬网技术,范围覆盖单个网站。

在 Azure AI 搜索中,定义搜索索引并使用你的内容填充此索引。 可以使用[索引器]或将任何符合索引的 JSON 文档推送到搜索服务来控制数据引入。

|
| 数据库搜索 | 许多数据库平台都包含内置的搜索体验。 SQL Server 具有[全文搜索]。 Azure Cosmos DB 及类似技术具有可查询的索引。 在评估结合使用搜索和存储的产品时,确定要采用哪种方式可能颇具挑战性。 许多解决方案同时使用两种:使用 DBMS 进行存储,使用 Azure AI 搜索获取专业搜索功能。

与 DBMS 搜索相比,Azure AI 搜索存储来自不同来源的内容,并提供专用文本处理功能,例如 [56 种语言]中的语言感知文本处理(词干化、词元化、词形式)。 它还支持拼写错误单词的自动更正、[同义词]、[建议]、[评分控制]、[Facet] 和[自定义词汇切分]。 Azure AI 搜索中的[全文搜索引擎]基于 Apache Lucene,它是信息检索方面的行业标准。 虽然 Azure AI 搜索以倒排索引的形式持久存储数据,但它不能替代真正的数据存储,建议不要在该容量中使用它。 有关详细信息,请参阅此论坛帖子。

资源利用是这个类别的另一个转折点。 索引和一些查询操作通常是计算密集型的。 将搜索从 DBMS 卸载到云中的专用解决方案可以节省用于事务处理的系统资源。 此外,通过将搜索外部化,可以根据查询量轻松调整规模。

|
| 专用搜索解决方案 | 假设已决定使用全频谱功能进行专用搜索,则需要在本地解决方案或云服务之间进行最终的分类比较。 许多搜索技术提供对索引和查询管道的控制、对更丰富查询和筛选语法的访问、对设置级别和相关性的控制以及自导智能搜索功能。

如果想要获得一个开销和维护工作量极少且规模可调的统包解决方案,则云服务是适当的选择。

在云范式内,多个提供程序会提供相当的基线功能,以及全文搜索、地理空间搜索,并且能够处理搜索输入中一定程度的模糊性。 通常,它是一项[专用功能],或者是 API、工具以及用于确定最匹配项的管理功能的易化和总体简化。

|

在所有云提供程序中,对于主要依赖于信息检索搜索和内容导航的应用,Azure AI 搜索在处理 Azure 上的内容存储和数据库的全文搜索工作负荷方面最为强大。

主要优势包括:

  • 索引层的数据集成(爬网程序)。
  • AI 和机器学习与 Azure AI 服务集成,如果需要使非可搜索内容成为全文可搜索,则会很有帮助。
  • 与 Microsoft Entra ID 的安全集成以实现受信任的连接,并与 Azure 专用链接集成以支持非 Internet 方案中到搜索索引的专用连接。
  • 56 种语言的语言和自定义文本分析。
  • [完整的搜索体验]:丰富的查询语言、相关性优化和语义排名、分面、自动完成查询和建议的结果以及同义词。
  • Azure 可伸缩性、可靠性和世界一流的可用性。

在我们的所有客户中,能够运用 Azure AI 搜索中最广泛功能的客户包括在线目录、业务线程序以及文档发现应用程序。


关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/167654.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何进行手动脱壳

脱壳的目的就是找到被隐藏起来的OEP(入口点) 这里我一共总结了三种方法,都是些自己的理解希望对你们有用 单步跟踪法 一个程序加了壳后,我们需要找到真正的OEP入口点,先运行,找到假的OEP入口点后&#x…

【2023云栖】大模型驱动DataWorks数据开发治理平台智能化升级

随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经…

文档明明在桌面上却不显示?5个方法轻松解决!

“我之前保存文档的时候明明选择保存在桌面,上次看的时候文件还在,但是今天打开电脑后发现我保存在桌面的文档不见了,这是为什么呢?还有机会找回我的文件吗?” 在日常使用电脑时,有些用户为了方便&#xff…

SAP权限设计简介

介绍 小技巧 -ERP 权限控制 繁中求简 , 闲聊一下 SAP 复杂权限设计的基本思想。 特别是适合大集团业务的 ERP 系统 , 应该提供一个非常完善的权限控制机制 , 甚至允许将权限控制字段细到字段级别,如果权限控制都做不到这点,估计产品销售就够呛&#x…

来聊聊阿里1688 /拼多多API接口接入| 让需求回到产品端

昨儿办公室讨论起了1688。 对,就是阿里搞批发的那个网站。 在上面,你可以买到各种各样价格低廉的产品,比如,办公用具、女孩子的皮筋、小孩子的玩具等等。 在小批量上,它和拼多多定价类似,但二者的赛道却不同…

物流实时数仓:采集通道搭建

系列文章目录 物流实时数仓:环境搭建 文章目录 系列文章目录前言一、环境准备1.前置环境2.hbase安装1.上传并解压2.配置环境变量3.拷贝jar包4.编写配置文件5.分发配置文件 3.Redis安装1.安装需要的编译环境2.上传并解压文件3.编译安装4.后台访问 4.ClickHouse安装5…

抽象类和接口

抽象类和接口 文章目录 抽象类和接口抽象类抽象类概念抽象类语法抽象类特性抽象类的作用 接口接口的概念语法规则接口使用接口特性接口类型是一种引用类型,但是不能直接new接口的对象接口中每一个方法都是public的抽象方法.接口中的方法是不能在接口中实现的&#x…

(亲测有效)VMware Windows虚拟机扩容

场景: VMware安装了一个windows系统,现在windows系统剩余空间不足,需要扩容。 解决步骤: 关闭虚拟机,状态如下: 2、点击编辑虚拟机设置-》扩展 3、输入最大磁盘大小-》点击扩展 4、等待成功后&#xff0c…

Python爬虫实战-批量爬取豆瓣电影排行信息

大家好,我是python222小锋老师。 近日锋哥又卷了一波Python实战课程-批量爬取豆瓣电影排行信息,主要是巩固下Python爬虫基础 视频版教程: Python爬虫实战-批量爬取豆瓣电影排行信息 视频教程_哔哩哔哩_bilibiliPython爬虫实战-批量爬取豆瓣…

光伏拉晶厂RFID智能化生产工序管理

一、项目背景 随着全球能源短缺和气候变暖的挑战日益突显,清洁能源已成为国内能源发展的主要目标之一,作为清洁能源的重要组成部分,光伏行业在过去几十年中取得了巨大的发展,成为我国的战略性新兴产业之一。在智能制造的大环境下…

Git 提交竟然还能这么用?

大家好,我是鱼皮。Git 是主流的代码版本控制系统,是团队协作开发中必不可少的工具。 之前已经给大家分享过 Git / GitHub 的学习指南,感兴趣的同学可以先看视频了解:https://www.bilibili.com/video/BV1KZ4y1e7cG。 这篇文章&am…

企业微信机器人定时发送图文信息,后续无需人工操作

企业微信群机器人是企业微信的内置功能,可以理解为是一个群提醒通知工具,接收数据并自动发送信息到企业微信群中。 数环通实现打通定时器和企业微信机器人的对接,定时执行自动化流程,无需人工干预,实现工作流程自动化&…

Thales安全解决方案:国家网络安全的关键

随着信息技术的飞速发展,网络安全问题日益凸显。在这个背景下,Thales安全解决方案正成为提高国家网络安全的关键。本文将探讨Thales安全解决方案如何为国家网络安全保驾护航。 一、Thales安全解决方案概述 Thales安全解决方案是一种全方位的网络安全防护…

《微信小程序开发从入门到实战》学习十八

3.3 开发创建投票页面 3.3.5 数据的双向传递 通过上一小节的代码和预览效果可以看到使用时间函数可以将视图层传递到逻辑层。 视图层数据由小程序管理,逻辑层通常保存在data对象,必须由开发者自己管理。 微信开发工具的AppData的面板可以实时查看到页…

使用 uWSGI 部署 Django 应用详解

概要 部署 Django 应用到生产环境是一个至关重要的步骤,其中选择合适的 WSGI 服务器对于确保应用的稳定性和性能至关重要。uWSGI 是一个流行的选择,它不仅高效、轻量,还非常灵活。本文将详细介绍如何使用 uWSGI 来部署 Django 应用&#xff…

【Linux】C文件系统详解(四)——磁盘的物理和抽象结构

文章目录 磁盘结构磁盘物理结构磁盘的具体物理结构磁盘结构的逻辑抽象 文件系统BootBlockSuperBlockGroupDescriptorTableinode tableDataBlocksinodeBitmapblockBitmaplinux中的inode 和文件名如何理解文件的增删查改删 补充细节1.如果文件误删了,我们该怎么办?2.inode确定分…

电脑监控软件都有哪些,哪款好用丨全网盘点

电脑监控软件是一种用于监视和控制计算机的软件工具,可以帮助企业和个人了解计算机的使用情况,保护数据安全,提高工作效率等。 电脑监控软件都有哪些: 1、域之盾软件 这是一款功能强大的电脑监控软件,可以实时监控电脑…

python绘图常见问题及解决方法总结

文章目录 1. 多个图片绘制到一起时出现title和xstick重合 1. 多个图片绘制到一起时出现title和xstick重合 fig, axes plt.subplots(6, 2, figsize(20, 40)) # Adjust the layout padding plt.subplots_adjust(hspace0.5, wspace0.4) # Plotting scatter plots for Tiu and ws_…

详解使用asyncio实现playwright并发操作(复制源码即可运行)

asyncio实现并发 我们可以使用asyncio来解决palywright中并发的问题,asyncio即Asynchronous I/O是python一个用来处理并发(concurrent)事件的包,是很多python异步架构的基础,多用于处理高并发网络请求方面的问题。给大家举一个经典的应用场景…

开源vs闭源大模型如何塑造技术的未来?开源模型的优劣势未来发展方向

开源vs闭源大模型如何塑造技术的未来?开源模型的优劣势&未来发展方向 写在最前面一、开源与闭源:定义与历史背景开源和闭源的定义开源大模型:社区驱动的创新 二、开源和闭源的优劣势比较开源大模型(瓶颈)数据&…