AI安全是最近非常热门的话题,无论是训练数据全生命周期保护、模型安全、AI安全与合规等,今天我们来介绍一个新兴的AI安全话题—负责任(Responsible)的AI
1️⃣什么是负责任的AI?
所谓负责任,就是通过构建AI治理框架,让AI模型在设计、开发、部署、应用的整个过程中都遵守伦理道德和法律的约束。举一个例子就是著名的"机器人三定律",这就是负责任AI需要遵守的其中一条约束
其中AI治理的框架由六大部分组成,他们分别是:
▶️公平性: AI要公平的对待每个人,避免对相似场景做出截然相反的回答
▶️稳健性: 让AI按照预定义的模式稳定运行
▶️合规治理: 保证整个AI生命周期按照合规流程进行
▶️透明性: AI的决策流程和模型信息是可追溯、可查的
▶️隐私和安全: 在AI生命周期中要对用户的隐私数据妥善保护
▶️可解释性: 有评估AI模型输出内容的机制
2️⃣如何在亚马逊云科技上构建负责任的AI?
在2023Re:invent中,亚马逊云科技CEO Adam推出了一个针对亚马逊云科技LLM托管服务Bedrock的服务Guardrails,利用该服务对用户输入和模型输出限制和筛选,用户可以对Bedrock中所有的模型自定义AI内容保护策略
3️⃣我该如何配置Guardrails?
Guardrails目前支持三项功能配置,大家通过控制台图2位置配置该服务
▶️Denied Topics 第一项功能就是通过定义禁止讨论话题,限制AI模型不合规的输出。下图就举了一个银行助手服务的场景,我们只允许AI模型回复和银行业务,如开卡相关的内容,避免回复禁止话题,如不相关的投资建议等。
我们此时可以在Amazon Bedrock中的Guardrails功能中添加禁止话题"Investment advice",并添加话题具体描述。
在下图中我们就可以看到,当用户问投资建议时,模型返回默认回复"无法回复"
▶️Content Filter
Guardrail还可以对输入、输出内容进行限制等级设定,可以筛选的话题包括: hate、insults、sexsual和violence
▶️PII脱敏(即将上线)
通过定型PII类型,可以在用户输入中或模型输出内容里将PII信息脱敏移除。