科技云报道:不卷自研大模型,金山办公如何创新生成式AI?

科技云报道原创。

过去大半年里,很多人对大模型的前景寄予厚望。主流观点认为,每个行业、每款产品都可以通过大模型“重做一遍”。

“重做一遍”听起来想象空间很大,但实际上多数大模型产品需要漫长的训练周期和海量资源投入,落地也就变得遥遥无期。

今年年初金山办公宣布All in AI,将LLM能力全面引入产品,发布基于大语言模型的智能办公助手WPS AI。

相较于大模型玩家普遍把“重做一遍”视为创新路径时,WPS AI带来了另一种大模型创新方法论——与其“重做一遍”,不如去“重新发现”。
在这里插入图片描述

据悉,金山办公选择在大模型应用侧下功夫,WPS国内版与WPS海外版同时推进WPS AI研发落地,让每个模型都能充分发挥自身的优势。

正因如此,WPS AI甚至比微软的Microsoft 365 Copilot还快了一步,成了国内第一个将大语言模型(LLM)应用在办公软件领域,并真正交付了可用产品的公司。

自今年4月18日首次亮相以来,WPS AI在短短50天里对多个核心办公场景进行了赋能,用“金山速度”不断刷新着生成式AI的应用边界。

如此惊人的进化速度,WPS AI是如何实现的?

生成式AI的背后是大模型服务的支撑

如果你是WPS的用户,最近可能会观察到一些变化:金山文档「智能文档」的新功能已经能够帮你提供新闻稿、广告文案、教学教案、工作周报等种种文件的起草、改写、总结、润色、翻译、续写等功能。

除此之外,它还可以帮你一键生成幻灯片、一键分析Excel数据、翻译总结文档,自己写日报等等。

通过AI大模型,WPS构建出一个更高效、快捷释放场景能力的智能交互系统,去解决用户多元且碎片化的办公需求。

不可否认,生成式AI本身的能力非常惊艳,但是生成式AI远远不只是以模型和AI这么简单。

基础模型只是在海面上的冰山一角,为了支持好这个冰山一角,冰川的底部有多个服务来支撑,比如说加速芯片、存储优化、数据库、大数据分析、安全服务等等。

不仅如此,支撑生成式AI的每一种技术和基础设施环境,都在发生着快速变化。

以基础模型为例,其发展是按照月甚至按照天的速度来迭的。2019年,最大的预训练模型是3.3亿个参数,但到了2023年,大模型最大的参数已经超过了五千亿个,也就是说短短四年,整个参数的迭代超过了1600倍。

同时,国内外都掀起了“百模大战”,从最开始出现的Transformer,到去年的GPT3.5、Stable Diffusion,再到今天GPT4、Llama2、Claude2等模型,还包括国内正在自研的基础模型如百川、ChatGLM等,每个模型都具备着他们自己独有的场景和优势。

正如亚马逊云科技的CEO Adam Selipsky所说,没有一个基础模型可以适用于所有的业务场景,用户会根据自己的场景去选择最适合自己的基础模型。

这一点放在金山办公身上同样适用。

金山办公AI研发总监刘强在采访中表示,几乎很少有一个模型能涵盖全部的能力,通常一个功能需要多个模型协作,需要考虑不同模型之间的调用方式不一样。

但Amazon Bedrock的模型管理,能把不同大模型底层的API做成透明统一的,这减轻了很大的工作量。

在这里插入图片描述
金山办公AI研发总监 刘强

刘强提到的Amazon Bedrock,是亚马逊云科技今年4月发布的一项生成式AI重要产品。

它支持来自AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和Amazon等领先人工智能公司的高性能基础模型,并可以轻松安全地进行自定义模型训练。

作为国内第一批Amazon Bedrock的预览版用户,金山办公可以在轻松使用这些高性能基础模型的同时,也能够使用自己的数据构建差异化的应用程序。

与此同时,金山办公通过使用机器学习平台Amazon SageMaker,正在帮助算法科学家快速进行场景实验和算法迭代。

Amazon SageMaker不仅可以避免算法科学家从头搭建模型,还可以通过Amazon SageMaker JumpStart功能帮助客户快速构建和部署模型,从而尝试多种开源模型。

可以说,有了这类大模型管理作为基础服务作为支撑,生成式AI的应用创新事倍功半。

生成式AI要效率也要安全合规

随着大模型的发展,数据的合规性和安全性成为亟待解决的问题。

在生成式AI领域中,数据的获取、加工及利用的方式决定了模型的性能和准确性。数据的非法泄漏、被恶意篡改,可能导致训练出的模型有误导性;非法获取或使用未经授权的数据,不仅违法,还可能使得模型偏离了其原本的目的。

前段时间,OpenAI被指控训练ChatGPT时使用从互联网上抓取的数据,大规模侵犯了无数人的版权和隐私。目前全球各国对于企业使用大模型的数据安全要求已日益提升。

不少企业在构建大模型时也普遍要求私有化部署,即在加密环境中使用私有数据训练模型,以控制相关数据和模型的安全风险。

金山办公AI研发总监刘强表示,WPS非常重视数据安全,有专业的团队及合作伙伴共同打造完善的数据安全体系,在各个国家和地区可以有效的保障用户隐私。

正因对安全合规的重视,金山办公作为一家中国企业得以顺利走向全球。截至2022年底,WPS在海外已拥有超过1亿活跃用户,WPS Office累计获得近4亿次安装。

从与金山办公合作的亚马逊云科技大模型服务来看,Amazon Bedrock在安全合规方面也助力颇多。

据亚马逊云科技解决方案架构师介绍,在开发之初就考虑到安全性和隐私保护,帮助客户保护敏感数据:

首先,Amazon Bedrock从服务设计层面就确保了客户的数据以及客户相关的信息不会被用于进一步训练模型。所有的客户数据都是经过加密的,且只有客户能够访问。

其次,客户可以使用Amazon PrivateLink,在Amazon Bedrock与虚拟私有网络(VPC)之间建立专门的安全连接,确保任何数据传输都不会暴露在公共网络。

最后,对于存在高度监管需求的客户,Amazon Bedrock符合 HIPAA(《健康保险流通与责任法案》)要求,并且可以在 GDPR(欧盟《通用数据保护条例》)合规标准下使用,让更多的客户从生成式AI中获益。

不难发现,金山办公也可以利用它有效提升安全合规工作的效率,并确保客户数据的安全性,让金山办公的实力得以在海外充分释放。

构建生成式AI需要高性价比的基础设施

正如前文所说,开发生成式AI应用是一个充满挑战的系统工程,并不是单纯的产品和服务拼接,需要各种技术和工具来解决挑战,而高性价比的基础设施正是其强有力的支撑。

早在生成式AI创新之前,金山办公就在积极探寻如何利用AI/ML技术为业务赋能。在数据存储、现代化应用开发、AI/ML、芯片等层面,金山办公与亚马逊云科技都有深度合作。

例如,WPS Office通过使用Amazon S3高效低成本地实现了PB级海量数据存储。

通过Amazon S3的智能分层功能,在存储方面获得了40%以上的成本优化效果;利用亚马逊云科技在美国、日本和印度的节点,将终端用户的响应延迟从日常大于1秒减少稳定至500毫秒以下。

在构建精细化运营方面,金山办公基于机器学习平台Amazon SageMaker服务构建了从用户识别、用户转换到流失用户挽回的一整套用户精细化运营路径,通过人工智能预测用户购买,增强用户转化率。

除此之外,金山办公还在尝试利用亚马逊提供的GPU机型和为生成式AI而打造的专门构建的加速芯片(Amazon Inferentia和Amazon Trainium),为海外业务部署开源模型方案,并且尝试利用加速芯片来降低成本。

总的来说,避免重复开发大模型,专注于模型的开发效率、调优以及对底层基础设施的高效利用,金山办公为AI应用带来了新的研发方式,也为AI应用开发者值得借鉴的思路。

未来,金山办公还将以AIGC(内容创作)、Copilot(智慧助理)和Insight(知识洞察)三个战略方向为核心,掀起办公交互方式的新一轮变革。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/118938.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

unraid 安装并设置 zerotier 内网穿透安装 unraid 局域网内其他设备

Read Original 最近看了以下两个文章,感谢发布的各种精彩文章,让我受益匪浅。OPENWRT 的固件在设置了,【自动允许客户端 NAT】后,可以直接访问局域网其他设备,而我 unraid 部署 zerotier 后,只能访问 unra…

2023第一届OPENAIGC开发者大赛圆满收官获奖名单公示

11月4日,历时两个月的「2023第一届开放AIGC开发者大赛」在苏州国际博览中心圆满收官。本次大赛以“AI生成未来”为主题,旨在寻找并推动中国大模型、AIGC领域的创新人才和前沿技术应用。云集来自各大行业与领域的企业、高校等323支优秀团队,共…

力扣 141.环形链表和142.环形链表2

目录 1.环形链表Ⅰ解题思路2.环形链表Ⅰ代码实现3.环形链表Ⅱ解题思路4.环形链表Ⅱ代码实现 1.环形链表Ⅰ解题思路 利用快慢指针,快指针一次走两个,慢指针一次走一个,如果出现了快指针为空或者快指针的next为空的现象则说明不带环&#xff0…

将 UniLinks 与 Flutter 集成(安卓 AppLinks + iOS UniversalLinks)

让我们使用 Flutter Mobile 和 Flutter Web 集成 UniLinks。 一步一步的指导! 我是 Pedro Dionsio,是葡萄牙 InspireIT 公司的 Flutter 开发人员,我写这个 UniLinks 教程的座右铭是: Firebase DynamicLinks 已被弃用&#xff0…

vivo 网络端口安全建设技术实践

作者:vivo 互联网安全团队 - Peng Qiankun 随着互联网业务的快速发展,网络攻击的频率和威胁性也在不断增加,端口是应用通信中的门户,它是数据进出应用的必经之路,因此端口安全也逐渐成为了企业内网的重要防线之一&…

【mmcv报错】ModuleNotFoundError: No module named ‘mmcv.runner

跑一个代码需要用到mmcv和mmseg 其中有两行代码: from mmcv.runner import load_checkpoint from mmseg.utils import get_root_logger我先是按照官方推荐的安装方法去安装了mmcv和mmseg pip install -U openmim mim install mmcv它会自动帮你安装mmengine 我的cu…

前后端交互常见的几种数据传输格式

目录 1. get请求 query string 2.form表单get请求 3..form表单post请求 4..json格式 5.总结 1. get请求 query string 前端通过get请求携带 query string(键值对) ,后端通过req.getParameter(key)方法获取数据。如果key不存在,获取到的就…

3款免费又好用的 Docker 可视化管理工具

前言 Docker提供了命令行工具(Docker CLI)来管理Docker容器、镜像、网络和数据卷等Docker组件。我们也可以使用可视化管理工具来更方便地查看和管理Docker容器、镜像、网络和数据卷等Docker组件。今天我们来介绍3款免费且好用的 Docker 可视化管理工具。…

一款好用的PDF转翻页电子书网站

​你是否曾经遇到过PDF文件无法翻页或者阅读不便的问题?今天给大家推荐一款好用的PDF转翻页电子书网站,让你轻松阅读PDF文件,不再烦恼翻页问题! 一、网站介绍 这款FLBOOK在线制作电子杂志网站支持多种电子文件格式转换&#xff0…

vue3中router和route的区别(使用场景)

1.router router是用来对路由进行操作的; 多用于路由跳转、路由守卫、页面刷新、给路由文件添加路由路径或者移除路由路径等等 2.route route是用来获取路由信息的; 多用于获取路由路径、路由传参数据、路由文件配置的属性信息等等

大漠插件(二、Qt使用插件时注意事项)

本章目的 在上篇已经注册完毕大漠,那么怎么使用大漠来制作脚本,我选择了我最熟悉的Qt来开发,毕竟只是小软件,用脚本或者c都差不了多少。本章就是开发途中的一些坑。 本人开发环境是 win11 64、Qt 5.15.2安装了5.10.0的msvc2015 32…

CDS(Core Data Service)Annotation 常用属性

1. 抬头信息 @UI: {headerInfo: {typeName: BP,typeNamePlural: BP,title:{type: #STANDARD, value:ApplyNumber},description:{value:Status}} }2. 行信息/分组 @UI.facet: [{id: bp_Tab1,purpose: #STANDARD,type: #FIELDGROUP_REFERENCE,// type: #LINEITEM_REFERENCE,labe…

Android Datastore 动态创建与源码解析

涉及到的知识点 1、协程原理---->很好的博客介绍,一个小故事讲明白进程、线程、Kotlin 协程到底啥关系? 2、Channel知识点---->Android—kotlin-Channel超详细讲解 3、Coroutines : CompletableDeferred and structured concurrency 封装的DataS…

chatgpt升级啦,训练数据时间更新到2023年4月,支持tools(升级functionCall),128k上下文

(2023年11月7日) gpt-4-1106-preview https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo 训练数据日期升级到2023年四月 上线文增加到128k 调用一次chatgpt接口,可以得到多次函数调用 import OpenAI from "openai"…

5米DEM高程数据分析和对比

数字高程模型(DEM)是应用最广泛的地理信息数据之一,是进行三维空间处理和地形分析的数据基础。每个行业数据精度要求不一样,很多行业使用公开免费的90米和30米分辨率DEM就够了。而城市规划、交通线路规划、地质灾害防控、城区地籍…

制造执行系统(MES)的数据追溯技术

一、什么是数据追溯? 数据追溯是指对产品或过程中产生的各项数据进行记录、存储和索引,并通过可追溯性手段实现对其源头、流向和变化过程的准确追踪和还原。 通过数据追溯,企业可以实现对产品质量、生产过程等关键信息的全面掌握&#…

nuxt项目:vant打包后样式顺序错乱问题及解决方案

不要引入vant/nuxt这个 需要的时候引入即可

Direct3D地形绘制基础

高度图 用高度图来描述地形中的丘陵和山谷,高度图其实就是一个数组,该数组每个元素都指定了地形方格中某一个特定顶点的高度值。通常将高度图视为一个矩阵,这样高度图中的元素就与地形栅格中的顶点一一对应。 高度图被保存在磁盘中,通常为其每个元素元素只分配一个字节存…

腾讯云16核服务器配置有哪些?CPU型号处理器主频性能

腾讯云16核服务器配置大全,CVM云服务器可选择标准型S6、标准型SA3、计算型C6或标准型S5等,目前标准型S5云服务器有优惠活动,性价比高,计算型C6云服务器16核性能更高,轻量16核32G28M带宽优惠价3468元15个月,…

浏览器自动播放音视频-前端实现方案

目录 前言 浏览器自动播放策略 策略详情: 实现方案 方案1: 互动后播放 方案2: 互动后出声 总结 前言 在开发中可能有遇到这样的需求,当用户打开页面后,需要自动播放视频或音频,按理说那就打开页面…