客户案例丨拓数派向量计算引擎PieCloudVector助力东吴证券AIGC应用升级

1.项目背景

随着人工智能技术的不断创新和应用,我们可以看到人工智能在各个领域的应用越来越广泛。深度学习技术在图像识别、语音识别、自然语言处理等领域表现出色。机器学习算法的改进将解决更多实际问题,如增强学习、迁移学习和联合学习等,以更有效地处理复杂的数据问题。自然语言处理技术的不断进步,有助于实现更自然的对话和交流方式,在智能客服、虚拟助手、智能翻译等方面有着广泛应用。数据与AI融合是不可阻挡的历史潮流,大数据和AI技术相互激发、相辅相成,共同推进彼此的发展,两把“金钥匙”握手会再次在金融行业掀起高潮。

AIGC类应用是数智融合的典型,底层基础是强大的数据治理能力,预训练语言大模型不断获得高质量数据进行训练、迭代和优化,从而带来远胜以往的智能应用理念。大模型将激活证券行业的非结构化数据,更高效地释放数据价值,应用将渗透到业务前中后段,带来新的生产力升级。大模型的爆发,将金融业带入到了一个全新时代,但同时也给行业带来了一些难题。

2.现状及痛点

2.1 数据安全问题

涉及敏感信息的业务应用,数据隐私是一个不可忽视的问题。部分场景中存在调用LLM API接口服务的情况,不能直接拿取业务数据,需要考虑数据泄露的风险。

2.2 私域数据问题

通用大模型在训练过程中并未接触过企业的私域数据和特定业务场景,因此,它们无法完全满足企业实际需求,也无法优化企业的具体业务流程,需要将其与企业内部的特定知识和数据进行整合。

2.3 实时性问题

大模型通常是基于历史的某个时间点及其以前的数据进行训练和优化的,缺失了部分实时的数据,假如有用户询问有关最新数据的问题,AIGC会生成错误的答案,这就是LLM幻觉问题。并且LLM计算并生成对应答案也需要一定的时间,一般都在3~5秒左右,用户交互时延较高。

2.4 长期记忆问题

LLM主要是处理数据,并能生成数据,但是本身却没有长期记忆能力, 这对于需要持续互动的AIGC场景是致命问题,长期记忆对于维持上下文理解至关重要,可以提供更自然、更个性化的用户体验。缺乏长期记忆,影响了LLM的性能和AIGC类应用的用户体验。

3.基于向量数据库的AIGC应用

3.1 整体架构

3.2 解决方案

  • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据(如法律法规、金融资讯、产研报告等);

  • 东吴秀财GPT当前生产上线的参数为130亿,将于2024年4月中旬完成千亿参数大模型的训练,训练集包括2.235万亿Tokens的中英文语料,其中包括4000亿Tokens的金融语料,采用40台8卡H800训练;

  • 拓数派提供了分布式的向量数据库PieCloudVector,采用4节点部署,总数据量超4TB,单Collection最大近2亿条向量数据,支持多种索引类型和主流检索算法;

  • PieCloudVector配合东吴秀财GPT大模型,整体形成了RAG架构,PieCloudVector主要存储Embedding后的向量数据,同时也支持应用的标量数据存储,并提供LangChain的SDK,无缝集成到AIGC应用开发框架中;

  • PieCloudVector是拓数派国内自主研发产品,通过了信通院的向量数据库能力测试。本次在东吴证券中也基于国产海光服务器和国产麒麟操作系统部署,满足了自主可控的要求。

3.3 应用及收益

  • 东吴秀财GPT基于文本理解与生成、RAG增强搜索、企业智能中枢、智能BI四大应用范式,开发了N个AI证券行业应用场景。现有应用包括涨跌分析和盘后总结,企微AI客服助手,智能尽职调查、年报问答、基金问答、量化投资、内部培训等,并接入了东吴数字人;

  • PieCloudVector向量数据库支撑东吴秀财GPT训练阶段的海量数据的分类、去重和清洗,给大模型的训练降本增效;

  • 通过外挂基于PieCloudVector向量数据库的知识库,帮助大模型提升处理新问题的能力,突破预训练带来的知识时间限制,避免大模型出现幻觉;

  • 在推理阶段,通过PieCloudVector向量数据库本身的权限控制,能真正实现隐私数据可控不出域。同时减少重复计算,通过缓存避免反复进行大模型推理,提高响应速度和性能;

  • 在上下文限制方面,由于PieCloudVector具备历史数据持久化的能力,同时通过内置的KNN、ANN算法做相似性查询,返回最相关内容,从而突破大模型上下文限制,实现长期记忆。将大模型问答结果进行缓存,确保数据一致性,避免因模型更新或数据变化而引起的结果不一致问题,提升用户信任度;

  • PieCloudVector向量数据库具备万亿级大规模向量数据库快速查询的能力,支持单节点多线程的索引创建,可充分调度硬件所有计算能力,索引创建性能提升5倍,检索性能提升6倍,交互响应速度提升3倍。

4.PieCloudVector产品优势

5.PieCloudVector应用场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/527266.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

学生用什么品牌的台灯好,学生护眼台灯推荐品牌

在童年的岁月里,我们常常无知于如何正确地使用眼睛,对于何种光线最有益眼睛健康也缺乏了解。这些年轻时的疏忽,如今在我的眼镜度数上得到了反映,近视已接近千度,这是许多同样经历的视友都能共鸣的体验。随着时间的推移…

MoonBit 最新动态:MoonBit 引入实验性的测试覆盖率统计工具

MoonBit更新 支持 array.iter intrinsic 并且已经对标准库中的函数进行标注&#xff0c;从而可以在特定情况下将循环进行内联&#xff0c;以提升运行效率 /// intrinsic %array.iter pub fn iter[T](self : Array[T], f : (T) -> Unit) -> Unit {for i 0; i < self…

pymilvus创建IVF_FLAT向量索引

索引简介 索引的作用是加速大型数据集上的查询。 目前&#xff0c;向量字段仅支持一种索引类型&#xff0c;即只能创建一个索引。 milvus支持的向量索引类型大部分使用近似最近邻搜索算法(ANNS,approximate nearest neighbors search) 。ANNS 的核心思想不再局限于返回最准确…

棋牌室计时吧台计费收费灯控管理系统软件操作流程

棋牌室计时吧台计费收费灯控管理系统软件操作流程 一、前言 以下软件操作教程以&#xff0c;佳易王棋牌桌球计时计费管理系统软件灯控版V17.87为例说明 软件文件下载可以点击最下方官网卡片——软件下载——试用版软件下载 该计时计费软件可以是棋牌和桌球混合同时计时计费 …

uniapp:Hbuilder没有检测到设备请插入设备或启动模拟器的问题解决

问题 使用模拟器调试运行项目时&#xff0c;出现以下提示&#xff0c;“没有检测到设备&#xff0c;请插入设备或启动模拟器后点击刷新再试”。排查了一天最终找到原因。 解决 已确认模拟器是已经正常启动&#xff0c;并且Hbuilder设置中的adb路径和端口都配置没有问题&#…

123124

c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话&#xff1a; 知不足而奋进&#xff0c;望远山而前行&am…

如何挂载img镜像以及lvm分区

上一章节&#xff0c;我在win10下利用qemu安装了一个aarch64的 kylin-server-v10的ISO系统镜像包。安装时将系统安装到了虚拟硬盘kylin-server-v10.img 里&#xff0c;现在有个需求&#xff0c;要读出kylin-server-v10.img中文件系统的内容。 通过fdisk命令可以看到 kylin-ser…

element-ui drawer 组件源码分享

今日简单分享 drawer 组件的源码实现&#xff0c;从以下五个方面来分享&#xff1a; 1、drawer 组件页面结构 2、drawer 组件属性 3、drawer 组件 slot 4、drawer 组件方法 5、drawer 组件事件 一、drawer 组件页面结构 二、drawer 组件属性 2.1 append-to-body 属性&am…

vulhub之fastjson篇-1.2.27-rce

一、启动环境 虚拟机:kali靶机:192.168.125.130/172.19.0.1(docker地址:172.19.0.2) 虚拟机:kali攻击机:192.168.125.130/172.19.0.1 本地MAC:172.XX.XX.XX 启动 fastjson 反序列化导致任意命令执行漏洞 环境 1.进入 vulhub 的 Fastjson 1.2.47 路径 cd /../../vulhub/fa…

vue前端项目到后端执行逻辑——自己改的话要怎么改

文章目录 vue前端项目到后端流程——自己改的话要怎么改 vue前端项目到后端流程——自己改的话要怎么改

外部模块介绍(七) 蓝牙HC05

HC05原理图 2. 蓝牙模块的调试 2.1 两种工作模式: HC-05蓝牙串口通讯模块具有两种工作模式:命令响应工作模式和自动连接工作模式。在自动连接工作模式下模块又可分为主(Master)、从(Slave)和回环(Loopback)三种工作角色。 当模块处于自动连接工作模式时,将自动根据事…

深入解析template,掌握C++模板的精髓!

掌握C模板&#xff08;template&#xff09;的优雅之道&#xff01; 一、什么是模板&#xff1f;二、模板如何工作&#xff1f;三、C 中的模板类型3.1、 类模板3.2、 函数模板 四、模板参数推导4.1、模板参数推导示例4.2、函数模板参数推导4.3、类模板参数推导&#xff08;C17 …

Spring 源码学习笔记(二)之Bean标签默认属性的解析

分析调用栈 Spring 通过读取 xml 配置文件注册 bean &#xff0c;通过工厂可以获取注册的 bean&#xff0c;示例代码&#xff1a; XmlBeanFactory beanFactory new XmlBeanFactory(new ClassPathResource("applicationContext.xml")); Object main beanFactory.g…

通过网络api获取日期对应的节假日信息

网络接口获取链接&#xff1a;免费节假日API_原百度节假日API HolidayJudge.h #pragma once#include <QtWidgets/QWidget> #include "ui_HolidayJudge.h"enum DATESTATE {WORK0,//工作日DAYOFF,//休息日HOLIDAY//节假日 };class HolidayJudge : public QWidg…

F5防火墙如何应对恶意攻击?一文搞懂

当前&#xff0c;5G网络模糊了安全防护边界&#xff0c;加速了全球网络攻击升级&#xff0c;攻防对抗变得日益激烈&#xff0c;导致传统网络安全防护措施越来越难以有效预测和应对潜在威胁。面对复杂部署环境&#xff0c;企业的安全团队正在努力寻找一致性的安全防护和可见性策…

谷歌浏览器用不了怎么办?

打开谷歌浏览器点击右上角的三个点 &#xff0c; 点击设置 在搜索引擎里面把这个改成百度 然后越狱登录你的谷歌账号就可以用了 我个人用的越狱软件是r2rayn &#xff0c; 浏览器上面可以搜索的 默认浏览器那里可以设置成谷歌

IP网络对讲广播系统审计

前言 这个系统是前两年在一个内网遇到的&#xff0c;当时顺手试了一个admin登陆之后再没有然后了&#xff0c;最近发现有大佬分享关于这个系统的漏洞&#xff0c;于是就把自己当初看的几个漏洞分享一下&#xff0c;系统比较简单&#xff0c;漏洞点很多&#xff0c;不要做坏事哦…

C++练级之路——类和对象(上)

1、类的定义 class 类名{//成员函数 //成员变量}; class为定义的关键字&#xff0c;{ }内是类的主体&#xff0c;注意后面的 ; 不要忘了 类体中的内容成为类的成员&#xff0c;类中的变量为成员变量或类的属性&#xff0c;类中的函数为成员函数或类的方法&#xff0c; 类的两种…

【Shell语言学堂】Shell 脚本练习1

Shell 脚本练习 shell语言实战 Shell 脚本练习&#x1f4a7;CSDN划过手的泪滴t现有一个脚本可传入n个参数&#xff0c;要求在脚本中实现在终端输出第n个参数之前的所有参数(不包含第n个参数)编写一个计算bmi体质指数的脚本&#xff0c;该脚本需要用户输入身高和体重信息&#x…

单调栈(LeetCode-下一个更大元素)

每日一题 今天刷到了一道用到单调栈来解决的题目&#xff0c;想到自己没有总结过单调栈的知识点&#xff0c;因此想总结一下。 介绍 什么是单调栈&#xff1f; 单调栈的定义其实很简单&#xff0c;所谓单调栈就是指一个单调递增或是单调递减的栈。 那单调栈有什么用呢&#x…