内容安全是指对腾讯云智能体开发平台(Tencent Cloud Agent Development Platform,下文简称 Tencent Cloud ADP)应用输入和输出的内容进行实时风险识别,用以保障其符合法律法规与伦理规范。本模块采用可视化形式,支持安全策略配置、关键词库管理、以及应用安全设置,同时可支持实时查看线上风险数据。
概念定义
安全策略:一个安全策略由 “审核模型”+“关键词”构成,是内容安全的核心,用于识别一条内容是否存在违规风险。其中,“审核模型”是系统内置的、专门为审核风险而训练的模型;“关键词”也常叫做“黑词”,是指系统预设或用户自定义的词语集合,通过与内容进行匹配来判断是否包含违规词语。
应用安全:应用安全是对“应用-安全策略”的简称,即每个应用都会挂载一个安全策略,该安全策略生效于对应用输入和输出内容的风险识别。
操作指南
注意:
本功能处于灰度阶段,预计2026年2月逐步全面开放。若您暂未看到功能模块,可联系商务申请加入灰度名单,或耐心等待后续开放。
一、安全策略
说明:
1. 系统会自动生成两个安全策略,分别为“免除审核”和“系统默认策略”。
2. 系统自动生成的安全策略不可编辑。通常来说,这两个安全策略满足绝大部分的使用场景,其中推荐默认使用的是“系统默认策略”。
2. 单击新建策略,创建自定义策略,自定义策略可配置生效的审核模型以及关键词。
说明:
为便于您的管理,建议策略名称按一定的格式来命名,例如“业务场景_应用_风险程度”这样的格式。
3. 新建自定义策略后,单击编辑,可配置关键词库和审核模型。
4. 自定义策略编辑共两步,分别为“关键词设置”和“图片审核模型设置”。
4.1 关键词设置:左侧为您的自定义关键词列表,勾选即表示该策略需要启用对应的关键词库。
4.2 图片审核模型设置:审核模型是系统内置的,设置需要开启哪些审核识别能力。图片审核模型是对应用输入/输出中的图片进行视觉类的风险识别。
二、关键词库
1. 单击平台管理 > 内容安全 > 关键词库,进入自定义关键词的维护管理页面。第一步需要新建关键词库,关键词的添加都是在具体的关键词库中进行。
说明:
1. 每个词库仅支持一种匹配模式,推荐使用精确匹配,以保障识别准确率。
2. 模糊匹配作为精确匹配的补充机制,适用于对抗性高的风险进行扩展识别。模糊匹配时,系统会对待审核文本先进行转义处理,该处理包括:
英文字母统一转为小写
中文繁体转为简体
汉字转换为拼音
中文数字转为阿拉伯数字
移除所有空格及特殊符号
因此,在模糊词库中添加词条时,请务必使用小写、简体、拼音、阿拉伯数字的格式,以确保匹配的有效性。
2. 新建词库后,单击编辑,进入对词库的具体关键词操作。
3. 单击新建关键词,弹出关键词的输入窗口。
说明:
机审标签:是对关键词命中的分类,便于后续的数据统计和 case 分析。机审标签是系统预设的,不支持自定义标签。
组合词:是指一段文本中,要同时命中组合词中的各个词组,才算命中。
三、应用安全设置
1. 单击应用安全设置,进入应用 > 安全策略的维护管理页面。
说明:
该页面以应用为维度,来设置各应用使用的安全策略、命中风险内容后的处置文案、以及是否启用隐私信息脱敏。
2. 单击列表右侧的设置,弹出应用安全设置的窗口。
2.1 安全策略:选择该应用生效的安全策略。
2.2 风险处置回复:当输入/输出被识别为违规时,在 Tencent Cloud ADP 应用的对话端文案。
说明:
Tencent Cloud ADP 应对对话端的效果示例如下:
2.3 信息脱敏:用于对输入或输出中,涉及隐私信息时,进行脱敏操作。
说明:
1. 支持范围:银行账户、身份证号、军官证、护照、驾驶证、社保卡、居住证、地址、手机号。
2. 脱敏效果:以身份证号为例,脱敏效果为 110105********1234。