今天分享的是大模型系列深度研究报告:《大模型专题:大模型赋能智慧办公评测报告》。
(报告出品方:国家工业信息安全发展研究中心人工智能所)
报告共计:34页
来源:人工智能学派
评测背景
当前,以大模型为代表的人工智能技术迅猛发展,正在成为引领新一轮产业变革的核心驱动力。大模型拥有强大的普适性、自主性、创造性和学习能力,让机器能够理解和生成更自然、丰富的文本、图像等。大模型应用正对各行各业产生变革性影响,在智慧办公领域,大模型加速落地,成为提高办公效率、提升协作能力、提供智能决策的重要途径。
本次评测面向大模型赋能智慧办公领域的PPT生成应用,构建8个PPT常用场景和2个特殊场景对相关产品在意图理解、生成质量、排版美化、基础性能、可信保护五个维度的表现进行评测和展示,希望为用户选择和使用PPT生成产品提供借鉴,为大型赋能智慧办公相关应用发展提供参考。
总体情况:大模型PPT生成产品目前初步“可用”,正在从“能用”走向“好用”
目前市场上可供选择的大模型PPT产品较为丰富,在部分常用场景初步可用,基本能够满足日常PPT制作需要,总体来看:在意图理解方面,对于评测指令能够实现较好的理解,生成的大部分提纲框架合理,具有一定逻辑性。在生成质量方面,文字内容大部分可用,经过一些人工加工和调整即可使用。在排版美化方面,半数PPT排版美观、合理,可直接使用或经过微小调整即可使用。在基础性能方面,大多数产品的使用体验较为流畅、稳定,也可提供多样化的辅助功能选择。在可信保护方面,大多产品设置了敏感和不安全信息的过滤机制,但在版权标识方面仍有待提升。
意图理解:多数产品支持指令输入和文档上传,产业研究等领域理解能力较好
意图理解考察产品对于用户意图的理解能力,包括多源输入能力和理解能力,从总分来看,平均得分为75.54分,意图理解能力总体较强。
在多源输入方面:所有产品都可以支持一句话指令输入,有75%的产品支持通过用户上传文档来生成PPT。在理解能力方面:
- 头部与尾部产品能力差异较大,头部产品在各类场景下的理解能力整体较强,部分产品容易将用户输入的指令直接生成为PPT标题。
- 不同场景理解能力存在差异,产业研究、产品营销、学术报告等偏向理论层面的领域理解能力更强,工作总结、活动策划等偏向实践的领域需具体问题具体分析,理解能力偏弱。
- 大多数歧义信息能够被很好地理解,大多数产品对于歧义词汇和不同使用角色都能够较好理解。
生成质量:内容完整性较高、整体“可用”,但专业深度仍有不足
生成质量考察产品生成内容中文字的可用性水平,包括完整性、准确性、流畅性、逻辑性、专业性、充实性6大维度,平均得分为70.05分,各产品生成PPT结构的完整性较高,生成的内容流畅性和逻辑性表现可接受,超半数产品内容较为充实,能够大致满足使用需求,少数产品内容偏简单,生成的内容在专业性方面整体仍有较大提升空间。
报告共计:34页
来源:人工智能学派