腾讯文档全面接入了AI,今天腾讯技术大佬tensorchen作者发表了一篇文章《腾讯文档AI助手技术实践》,
里面讲解了从技术应用架构以及AI大模型赋能角度,介绍腾讯文档AI智能助手的探索和实践之路。作为一款集多功能为一体的AI产品,腾讯文档全品类与AI进行了深度融合,全面提升用户生活和办公中的效率。
通过腾讯文档AI,你脑海中灵光一现的Idea可以快速转化为详细的内容,在各种类型的文档中同源流转。
大家一定要去体验一下AI加持的新的腾讯文档
我们对腾讯文档AI助手的技术进行简单的分析一下
技术架构:
-
AICopilot:提供AI侧边栏对话入口服务,主要负责对话的意图识别工具分发,意图保持,柔性处理,缓存逻辑,会话存档等能力。
-
AIServer:提供各品类独有浮层助手能力。
-
AIAgent:定位于AI智能体,目前主要提供文档各品类的能力工具集合,被上层服务的意图识别后所实际的驱动的接口。
-
AIEngine:文档的AI引擎服务,涉及对AI相关能力的抽象和封装,保持统一抽象定义(主要包含文生文,文生图,TTS,ASR,OCR,Embedding等AI能力的抽象),屏蔽不同AI能力间的差异,奠定文档可以在不同AI能力进行无缝切换的基础。
-
AIOperation: 文档AI相关的灰度策略,隐私授权(柔性),运营操作。
-
AIExtension:AI拓展服务,主要包含和规划为AI应用落地过程中的其他支撑能力,例如文本搜索,图片搜索,Python执行引擎。
文档AI中台:
文档AI中台的概念初始于腾讯文档这款产品本身就存在10种品类,期望以中台解决方案的形式为不同品类进行赋能,同时也是这样实践和落地。此不仅仅在于腾讯文档产品本身,依据部门内整体产品矩阵,也更需要将文档xAI基础能力作为中台,交付和赋能不同的产品。
技术方案:
-
RAG(Retrieval-Augmented Generation)搜索增强生成技术,用于处理大模型中各种复杂的知识密集型任务,如知识问答。
-
通过PromptID为唯一任务索引,将能力标准化工具化,通过As Code形式对任务进行编排。
多意图识别:
方案一:多轮Function Call
方案二:生成代码最终选择生成代码的方案,因为多轮function call实现上无法解决任务顺序问题,而通过生成的代码是可行的。
数据增强方法:
-
收集种子指令:收集新需求,人工编写简单种子指令。
-
指令多样化:参考self instruct、evol instruct 宽度变换的做法,对种子指令进行多样性变换,覆盖更多的领域、主题、形式等。
-
指令复杂化:参考evol instruct 深度变换操作,为种子指令添加约束,让指令变得复杂,为每个指令增加3-10个约束条件。
-
指令泛化:对进化后的指令同意改写,进一步丰富表达方式和形式,每个指令改写3-5种形式。
对比学习方式:
针对差别较小,难以区分的任务,例如:约束漏点、否定约束、数字要求等任务,专门构造对比样本,加入sft或者进行强化学习。这类样本可以加入sft阶段学习,可以构造pair数据,加入偏好学习阶段。
公式生成:
使用思维链(COT)+代码生成(POT)的方式,解决公式嵌套带来的效果不稳定的问题。COT迫使模型将推理过程划分为中间步骤,类似于人类的认知过程,将复杂的挑战分解为更小、更易于管理的部分。PoT提供了一个更清晰、更具表达力和基础的答案推导模型,提高了准确性和理解力。
图表生成:
图表生成的核心部分包括6个模块,其中拒识、分步改写、代码生成三个模块是基于大模型的推理模块,背后模型均经过了模型精调。拒识模型能够识别用户问题和表格的相关性,对与表格无关的问题或非绘图问题进行拒绝回复。分步改写模型针对不同表格和不同问题,将绘图步骤拆解为多个可执行步骤。代码生成模型根据绘图步骤生成python表格可视化代码。