开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共870人左右 1 + 2 + 3)新人会进入3群
DataStax正在与Google合作,将矢量搜索引入其AstraDB NoSQL数据库即服务中,试图使Apache Cassandra更加兼容人工智能和大型语言模型工作负载。
在生成式人工智能的普及之后,矢量搜索,特别是矢量化,被认为是数据库厂商关注的一个关键能力,因为它可以通过减少数据结构的需要来缩短训练人工智能模型所需的时间,这是目前搜索技术普遍存在的一个做法。相反,矢量搜索可以读取正在查询的数据点的所需或必要属性属性。
DataStax在一份声明中表示:“矢量搜索使开发人员能够通过上下文或意义而不是关键字或文字值搜索数据库。这是通过使用嵌入,例如Google Cloud的文本嵌入API,它可以将语义概念表示为向量来搜索非结构化数据集,如文本和图像。”
Datastax表示,嵌入可以看作是一种强大的工具,它可以在不同格式的大型数据语料库中对自然语言进行搜索,并提取最相关的数据。
分析师们认为,随着企业寻求减少支出并构建基于生成式人工智能的应用程序,矢量数据库被视为2023年的“热门产品”。
据公司表示,矢量搜索以及其他更新将通过由谷歌提供支持的NoSQL Copilot在AstraDB内实现,并且还将帮助DataStax的客户构建人工智能应用程序。
在底层,NoSQL Copilot是将Cassandra的矢量搜索、谷歌云的Gen AI Vertex、LangChain和GCP BigQuery相结合。
DataStax的首席产品官Ed Anuff表示:“DataStax和GCP共同设计了NoSQL Copilot作为一个LLM Memory工具包,然后将其插入到LangChain中,以便轻松地将Vertex Gen AI服务与Cassandra相结合,用于缓存、矢量搜索和聊天记录检索。因此,企业易于构建适用于其业务应用程序的自己的Copilot,并将AI服务组合用于保存在Cassandra中的自己的数据集。”
由两家公司联合开发的开源库使得其可以插入到旨在简化使用大型语言模型开发生成式人工智能应用程序的开源框架LangChain中。
这个名为CassIO的库旨在使将基于Cassandra的数据库添加到生成式AI软件开发工具包(SDK)(如LangChain)中变得更加容易。
DataStax表示,企业可以使用CassIO构建复杂的AI助手、生成式AI的语义缓存、浏览LLM聊天记录以及管理Cassandra提示模板。与Google的其他集成包括使用Google Cloud Console创建和提供基于机器学习的功能,以便使用Google云的企业将数据从基于Cassandra的数据库导入和导出到Google的BigQuery数据仓库。
DataStax表示,与Google的第二个集成将允许AstraDB订阅者将实时数据从Cassandra传输到Google Cloud服务,以监视生成式AI模型的性能。DataStax还与SpringML合作,以帮助加速使用SpringML的数据科学和AI服务来开发生成式AI应用程序。
可以说,建立在Apache Cassandra之上的AstraDB将成为首批将矢量搜索引入开源分布式数据库的之一。数据社区的一篇帖子(DataStax是其中的成员)显示,目前正在计划为Cassandra 5.0版本增加矢量搜索功能。
就可用性而言,DataStax表示,AstraDB的矢量搜索目前仅可以用于非生产工作负载,并处于公共预览阶段。该公司还表示,这种搜索最初将仅在Google Cloud上提供,后来将扩展到其他公共云。