大模型难落地?聊聊大模型在智能财务应用的正确打开方式

大模型难落地?No,是你还不够了解它!

(全文4989字,阅读约需10分钟)

这两天,大模型几乎成了WAIC(世界人工智能大会)的唯一主题。大会上,各家企业的大模型悉数登场,在同一个舞台百花齐放。

“大模型的惊奇之处,是我们在用大模型赋能令才自身产品的时候,每天早上醒来再去观察它的表现,都和昨天不一样,它每时每刻都在进步。” 令才科技副总经理翁崇凌在《大模型在智能财务领域的应用思路和落地实践》直播中提到。

令才科技从今年3月起,尝试让大模型与自身产品产生化学反应,最近也取得了一些阶段性的成果,于是就有了这场直播。本文总结当天直播精华内容,与大家共享,有想二刷或错过直播的小伙伴,点击文末阅读原文看直播回放。

01

大模型的实践背景

在财务智能审核、记账、分析领域,令才科技深耕了6年,协同企业摆脱上述财务工作中大量存在的“用人成本与岗位价值”不匹配、“业务流程与管理所需”不匹配问题。要彻底解决两个“不匹配”,就必须达成“三高”——高质量且全面的数据结构化、高标准且专业的规则自动化、高效率且灵活的运营数字化。

但是在“三高”达成的过程中,令才科技长期面临有两个卡点,一是非标票据如何又快又好的实现定向数据结构化?二是系统如何自动理解纸面上的规则话术?

一个是数据,一个是规则。财务审核的票据类型非常繁杂,尤其非标票据,比如酒店水单,想要对水单中的指定信息做数据结构化处理就很费工夫;审核规则是动态多变的,要把呈现在纸面上的规则话术自动装进系统里且可执行,同时做到修改纸面即修改系统也很难。这两个卡点导致在做财务智能审核、记账和分析时,系统自动化率难以达到100%。

翁崇凌提到,令才科技早期的方法论,是以工具化应用提供生产力转换的方式,让客户端感受到100%自动化率的智能财务体验,因此有了芝麻菜众包平台,让OCR不能处理的票据转换给众包商补录;有了令才规则引擎,让系统不能直接理解的规则转换给交付团队配置……

“但这并不是令才科技追求的终点,我们追求的是产品担负起全量生产力的输出,所有功能环节不依赖人的介入” 翁崇凌说。于是,有了大模型在这两个技术卡点上的创新实践。

02

大模型在智能财务领域的应用思路

大模型的能力要应用在智能财务,最简单的逻辑就是对其“用强弃弱”,最重要的是找到大模型和智能财务工作的结合点。

为了方面大家理解结合点,翁崇凌首先用“三横一纵”智能财务的流水线来说明当今智能财务的发展脉络,第一横是智能财务实务操作线,第二横是智能财务业财融合线,第三横是智能财务风险管控线,一纵是智能财务管理支撑线。

然后,翁崇凌用“四阶梯”阐述了大模型如何在智能财务“用强弃弱”。 结论是:第一阶梯,大模型应用效果较好的环节为智能提单和智能审单,可以足量发挥它的优势;第二阶梯,大模型应用效果一般的环节为智能记账、智能风控、智能税务和数据池;第三阶梯,大模型对司库、BI的应用效果,现阶段看是不足的;第四阶梯,智能报表、管理驾驶舱、业财一体,大模型暂时还难以快速供给能量。

翁崇凌解释了基于智能财务发展脉络,现阶段为何这样定义“四阶梯”。大模型强,是强在远超人类个体的渊博常识、拥有不特定立场的人机对话能力、具备自我进化的涌现性;大模型弱,是弱在不了解大多数企业的业务流程、未拥有领导人格魅力、对多领域知识结合推理的认知较浅。

所以,“三横一纵”中,偏常识、偏技能、偏沟通的财务工作,大模型几乎都可以完美赋能;而偏流程、偏业务、偏管理的事情,大模型就表现的比较挣扎。

“现在市面上的大模型,训练集里是没有每家公司具体的运营条款、人力制度、财务规则的,这些数据对大模型就是OOD数据(可以理解为训练集外的数据),所以我们很难指望它全盘优化公司财务。当然,你可以让大模型去理解流程、理解业务甚至理解管理,但这将是非常大的投入,这种投入对绝大多数企业而言都会击穿试错空间,我们还是期待它本身的进步更务实一些。”

翁崇凌接着说:“我需要澄清一点,大模型不是在报表、业财一体、管理驾驶舱中毫无建树,我说的难以应用是指大模型大范围替人去完成这些工作这件事,不过我们依然可以有一些结合点,比如发挥大模型的沟通能力,让领导在管理驾驶舱有更好的搜索体验。当然,我还是推崇优先让大模型介入财务提单、审单,这是能大范围替代人工的。”

03

大模型在非标票据定向数据结构化上的落地实践

非标票据定向数据结构化,是指对没有固定格式的票据中的特定信息做数据结构化处理。比如维修清单,各家修理厂有各家的格式,对企业而言是典型的非标票据;不过需要其中的信息就是维修单位、维修事项、维修日期、维修金额、签章这几个字段。直白讲就是需要从成千上万种格式的票据中找到财务需要的信息,做结构化转换。

这对于OCR是非常困难的,但是现在大模型为此带来了天翻地覆的变化,用翁崇凌的话说,就是“感觉天亮了”。

翁崇凌在直播中举了三个实践案例,让收看直播的伙伴观看了令才科技应用大模型对酒店水单和手写收款单做定向结构化的效果。大模型可以通过多种方式,准确找到票据中特定信息,并完成数据结构化处理。同时,令才科技没有丢掉高精度输出置信的看家本领,对大模型的结论加上了置信度,可以更好的发挥数据价值。(感兴趣的伙伴可以看下面的视频感受一下⬇️)

在技术赋能财务智能化的过程中,技术的环节越多,出bug的可能性就越大。大模型的出现,完全精简了数据结构化的过程,作业质量和效率也得到了提升。大模型对非标票据定向数据结构化的赋能,为财务实现全类型票据数据结构化提供了坚实基础,也为由于传统OCR的弊端而被迫选择人工补录的模式带来了转变可行性。

有了大模型的加持,目前令才科技已经实现了500多种票据类型的定向数据结构化。那令才到底是如何应用大模型一步一步实现的?

翁崇凌为大家讲述了实践方法论

第一, 令才科技调用了两个大模型,一个用于语料拆解和语料在上下文出现的位置抓取;另一个用于语料重新组装和结构化输出。

第二, 训练两个大模型的训练集,来源于沉淀了7年的众包补录数据。因为众包补录这种方式,就是“一问一答”的对话逻辑,比如酒店水单,通过7、8个小问题引导众包商完成几个所需信息的提取。这种对话式训练集非常利于大模型吸收其中知识。我们用了GAN来基于真实众包补录数据生成虚拟对话数据,以此规避真实数据的隐私问题。

第三, 为训练集匹配了提示词工程和标注脚本,完成了众包数据、校准数据和数据所在票据位置的三者关系匹配,让大模型充分掌握在票据什么位置能找到需要结构化的数据(定向过程)。整个训练集有9600万条问答式对话。

**第四,**通过训练集prompt大模型,让大模型拥有众包商的视角和思维方式。同时重构了OCR的输出语序,将大模型与机器视觉完成行为匹配。

**第五,**至此,带有人类补录票据信息逻辑的大模型就落地了,在机器视觉的帮助下,它可以像人一样从各式各样的票据中找到需要的内容,完成结构化输出。

其特色是:

第一,基本摆脱了传统OCR的弊端。 以往做非标附件的数据结构化,要么是通体识别后,利用关键词检索信息;要么是识别定制训练,重塑识别模型;要么是人工补录。无论哪种,都费时费力费钱,现在有了大模型的加持,想要什么信息就出来什么信息。

第二,多种方式来定向提取数据。 大模型可以发挥语义分析的优势,自动去找意思相近的词来匹配,不需要做死板的关键词库了,极大幅度提升了提取灵活性。

第三,能够结合常识和上下文的输出。 比如,像合同这种大文本,曾经一项应付金额提取难倒好汉无数。一份合同中往往包括总金额、阶段付款金额、违约金额、赔偿金额、优惠金额等各种的金额,以往结构化时系统很容易混淆概念。现在的大模型可以自己结合相关附件的说明性内容、合同上下文来提供我们想要的数据,准确性得以提升。

第四,可直挂智能客服。 比如发票抬头开错了退回给提单人,可能提单人并不知道什么是发票抬头,这时候只要他把这张图拖到对话框里面去,大模型就会告诉他哪里需要修改,也会告诉他基于什么规则,什么条款,做什么样的修改。

04

大模型在系统自动理解纸面财务规则上的落地实践

前段时间,令才科技重磅发布了新版IFS(智能财务商城),其中有个重要革新就是把令才这些年积累总结的规则知识,包括费用、总账、税务、应收、应付等常见的财务规则做了总结、提炼、呈现,形成“财务规则库”。

有了这个库,令才科技可以从场景、行业两条线为客户提供财务规则参考及快速复用。尝试大模型后,令才科技也把这个库灌输给了大模型,让它去学习和分析,现在它可以实现在一定程度上自动理解一份新的财务规则。

在这里,翁崇凌用两个具体案例,生动直观地为大家讲解了大模型在系统自动理解纸面财务规则上是如何实践的。

其特色是:

第一, 可以将一份新的财务规则丢给大模型,然后用prompt的方式,把大模型做定位调整,化身“财务规则理解助手”,让它看完后,把审核点抓取出来,然后放到令才智能财务商城(IFS)的规则库中,实现从纸面规则到生产环境的100%自动化。规则可以从纸面直接到系统,这标志着真正意义上的“财务规则数字化管理”向前迈了一大步。

第二, 规则的数字化管理进一步加强后,未来完全是基于大模型去管理规则,我们不再使用Word、Excel等文档做规则管理了,甚至不再使用规则引擎做管理,而是一个大模型来和我们共同管理整个企业的财务规则。这时,财务规则的任何调整,人与系统之间是直接联动的,加之全量的高准确率数据结构化,不再有人工具体参与的智能审核、智能记账、智能分析就出现了,这是从规则数字化到整个记账数字化的演变。

第三, 后期可以向人机全面协同发展,这一点非常具有想象空间。“比如我们现在想调整差旅住宿标准,原来能发调研清单问一问就不错了,更多时候就是财务在网上查查信息,有个大概认识就调整了。现在有大模型了,财务动差旅标准,大模型会蹦出来说这个级别可以再高点、那个城市用不了这么多。它对这个世界的常识掌握,所有人应该去敬畏。而且它给的信息,在相当多的背景下,反而是很客观合理的。这是财务需要的,没有感情、全是技巧;个体控制、全盘追踪”翁崇凌说。

前面两点,令才科技已经在一些简单规则上实现了,接下来向着复杂的规则迈进。同步的,去勇敢挑战,把第三点转变为现实。

05

大模型实践中的三大关键点

最后,翁崇凌讲述了令才科技在大模型实践中总结的三大关键点。

第一,全面的数据结构化积累非常、非常、非常重要,这是大模型落地时的关键。 这一次令才科技能够在一夕之间取得大模型应用的突破,源于数年众包补录数据的沉淀、规则数据的沉淀,令才甚至花了半年时间把所有见过的票据样式脱敏留底也做为一种沉淀。这些沉淀为技术层的爆发提供了炽热动能。

第二,训练有个核心点,是让数据适应大模型,并让大模型具有清晰的应用目的。 现阶段,很少有企业能自研一个成功的大模型,最好还是让自己的数据去匹配成熟的大模型,去顺应大模型的训练逻辑。把众包补录数据以对话形式提供给大模型,就是这次令才科技在应用大模型取得成果的“捷径”之一。也要坚定训练大模型的目的,令才科技在前两个月中,一度看不见任何曙光,灰心解决不了任何问题,通过各种方法让大模型明白它要做什么,是研发团队最重要的工作,直到有天夜里11点多,它明白了。

第三,抛弃曾经定制AI模型的思路,否则大模型的能力难以全面释放。 翁崇凌解释道:“我们有时会不自觉的沿用一些老思路去应用大模型,到头来发现都是错的。比如有段时间,我们就老想着把财务规则的意思直接标注出来让它去理解,结果越来越混乱。它靠着对语料的意义分析,反而一点点掌握了如何去理解财务规则。蛮奇怪的,我们把人的学习逻辑给它,它学不像人;我们把基础知识给它,越来越像人。过去的AI模型,很多时候我们就是按人怎么想的,把这个想法训练给机器,现在不适用了。”

如何学习大模型 AGI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-


👉AGI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉AGI大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉AGI大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/634728.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深度学习之基于Tensorflow模版匹配智慧停车计费系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 随着城市化进程的加快,停车难问题日益凸显。传统的停车管理方式已经无法满足现代社会的需…

QT7_视频知识点笔记_5_线程,数据库

多线程 两种办法:第一种:Qt4.7之前的线程使用的方法(简单);第二种:Qt4.7之后的(灵活–推荐)----connect最后一个参数的作用:默认连接,队列连接,直…

Linux软硬链接及动静态库

软硬链接与动静态库 软连接 创建链接的方法: ln -s test1.txt test2.txt 其中ln 是link(链接),-s 是soft(软),后者链接前者。 此时打开test2.txt,发现其中内容与test.txt一致。那么软连接到底建立了什么联系?…

【笔记】软件架构师要点记录(2)

【笔记】软件架构师要点记录 20240523案例一案例二案例三案例四案例五案例六案例七案例十 20240523 基于前10个架构案例场景,对用到的专业术语进行整理,方便后续查看。 案例一 MVC架构风格组件交互方式 MVC是一种用来构建用户界面时采用的架构设计风格…

分布式Id/框架/发号器一文介绍

文章目录 一、分布式id介绍1、什么是分布式id2、分布式id的特点 二、UUid生成算法1、JDK UUID2、Snowflake 雪花算法3、PearFlower 梨花算法4、Mist 薄雾算法 三、常见发号器服务1、数据库1)自增2)号段模式 2、NoSQL 四、常见框架1、百度UIDGenerator2、…

基于BERT的中文情感分析实战

数据与代码链接见文末 bert开源项目解读:谷歌开源项目BERT源码解读与应用实例-CSDN博客 基于BERT的中文命名实体识别识别实战:基于BERT的中文命名实体识别识别实战-CSDN博客 1.数据 在data目录下,提供了中文情感分析的数据, 类别1代表正向情感,类别2代表负向情感。

打气球小游戏

1.气球往上飘 我们声明两个符号常量来作为窗体的长和宽,接着就是常规操作 #define WINDOW_WIDTH 800 #define WINDOW_HEIGHT 600#include<easyx.h> #include<stdio.h> int main() {initgraph(WINDOW_WIDTH, WINDOW_HEIGHT);setbkcolor(WHITE);cleardevice();get…

几年前写的一个小工具

几年前写的一个工具&#xff0c;开发工具 是Delphi7 UniDAC FastReport2.53 &#xff0c;开发时间不到8小时&#xff08;同时还在处理其他事情&#xff09;。 其实把这个翻出来&#xff0c;是想说说俺的一个同事。他是俺这几年遇到的最优秀的人之一。他负责售后维护部&#x…

浅谈AI大模型的数据特点和应用问题

【摘要】AI大模型的训练、推理及应用落地都需要大量的数据&#xff0c;其数据具有参数和数据量大、质量要求高、行业垂直属性强、资源消耗大等特点&#xff0c;由此带来的个人隐私泄露、数据中毒、数据篡改等数据安全风险已成为业界必须应对的重要议题。目前大模型的规模化应用…

使用 LlamaParse 进行 PDF 解析并创建知识图谱

此 Python 笔记本提供了有关利用 LlamaParse 从 PDF 文档中提取信息并随后将提取的内容存储到 Neo4j 图形数据库中的综合指南。本教程在设计时考虑到了实用性&#xff0c;适合对文档处理、信息提取和图形数据库技术感兴趣的开发人员、数据科学家和技术爱好者。 该笔记本电脑的主…

怎么判断一家公司是否有前景

前段时间&#xff0c;有个老铁&#xff0c;给我发了一长串文字&#xff0c;看得我头皮发麻。 好在&#xff0c;他情商很高&#xff0c;买了我一个小时的时间&#xff0c;我才硬着头皮看完&#xff0c;根据他的情况&#xff0c;跟他打了电话交流。 他目前的处境&#xff0c;是在…

干G货,性能测试基本方法和原则,

一、性能测试关键点 评估性能指标——线程tps&#xff08;可架构给&#xff09; 吞吐量qps&#xff08;可架构给&#xff09; 错误率&#xff08;可架构给&#xff09; 平均响应时间&#xff08;可架构给&#xff09;模拟线上数据量了解接口有没有缓存&#xff0c;有缓存的需要…

HIOKI日置阻抗分析仪IM7583

HIOKI日置阻抗分析仪IM7583 HIOKI日置阻抗分析仪IM7583 HIOKI日置阻抗分析仪IM7583 功率分析仪 PW6001 基本参数 测量线路 单相2线&#xff0c;单相3线&#xff0c;三相3线&#xff0c;三相4线 输入通道数 zui大6ch&#xff0c;电压/电流同时单位是1ch &#xff08;电压测…

ClickHouse配置与使用

静态IP配置 # 修改网卡配置文件 vim /etc/sysconfig/network-scripts/ifcfg-ens33# 修改文件内容 TYPEEthernet PROXY_METHODnone BROWSER_ONLYno BOOTPROTOstatic IPADDR192.168.18.128 NETMASK255.255.255.0 GATEWAY192.168.18.2 DEFROUTEyes IPV4_FAILURE_FATALno IPV6INIT…

OSPF路由聚合

原理概述 与RIP不同&#xff0c;OSPF不支持自动路由聚合&#xff0c;仅支持手动路由聚合。OSPF的路由聚合有两种机制&#xff1a;区域间路由聚合和外部路由聚合。区域间路由聚合必须配置在ABR路由器上&#xff0c;指的是ABR在把与自己直接相连区域&#xff08;Area&#xff09…

5.23.1 深度学习在乳腺癌成像中的应用

乳腺成像在早期发现乳腺癌以及在治疗期间监测和评估乳腺癌方面发挥着重要作用。最常用的乳腺成像方式是数字乳房X线摄影、数字乳腺断层合成、超声和磁共振成像。 传统的 CAD 系统基于传统的机器学习 (ML) 技术&#xff1b;预定义&#xff08;手工制作&#xff09;的特征是系统…

汽车摄像头智能画质增强解决方案,高品质车载视觉系统

在数字化与智能化浪潮的推动下&#xff0c;汽车行业正经历着一场前所未有的技术革命。其中&#xff0c;车载摄像头作为智能驾驶与安防监控的核心部件&#xff0c;其画质的高低直接关系到行车安全与驾驶体验。美摄科技&#xff0c;作为行业领先的智能图像技术解决方案提供商&…

想在抖音做电商怎么操作?我的建议是......

我是王路飞。 想在抖音做电商&#xff0c;应该怎么操作呢&#xff1f; 我的建议是&#xff0c;开通一个抖音小店就可以了~ 想了解抖音电商内容的&#xff0c;可以认真看完这篇文章~ 内容来源于【电商王路飞】 先给你们解答一些概念类的问题。 抖店和橱窗是一个东西吗&…

不闭合三维TSP:蛇优化算法SO求解不闭合三维TSP(起点固定,终点不定,可以更改数据集),MATLAB代码

旅行商从城市1出发&#xff0c;终点城市由算法求解而定 部分代码 close all clear clc global data load(data.txt)%导入TSP数据集 Dimsize(data,1)-1;%维度 lb-100;%下界 ub100;%上界 fobjFun;%计算总距离 SearchAgents_no100; % 种群大小&#xff08;可以修改&#xff09; …

Centos7.9安装卸载Docker

文章目录 1、官网安装1.1、卸载旧版本Docker1.2、通过rpm仓库安装1.2.1、设置仓库1.2.2、安装Docker Engine1.2.3、启动Docker1.2.4、验证安装 1.3、通过rpm软件包安装1.4、通过便捷脚本安装 2、yum安装2.1、安装docker-ce以及客户端2.2、启动docker2.3、配置镜像加速 3、卸载D…