知识图谱作为人工智能领域的核心技术之一,是一种通过三元组(实体×关系×属性)形式,结构化表达实体间关系的语义网络。这种网络不仅嵌入了丰富的语义和逻辑,还遵循一定的规则,使其成为人类进行推理、预测和分类的有力工具。
与传统的图像不同,知识图谱中的“图”指的是类似化学分子式的结构,由多种实体和它们之间的关系构成的复杂网络。知识图谱具备以下四个基本特征:
- 结构化知识表示:将非线性、分散的知识信息以结构化形式呈现,便于理解和操作。
- 语义丰富:每个实体和关系都具有特定的语义和逻辑含义。
- 网络化知识结构:通过复杂的实体和关系网络,实现对知识的深度挖掘和应用。
- 数据承载方式:主要通过知识库承载,通常以文本数据为主,辅以结构化的数据形式。
知识图谱的构建和应用为决策支持、智能分析等领域奠定了坚实的基础。
核心任务概览
- 知识图谱构建与补全
- 构建:从数据收集、整合到组织的过程,创建全面的知识表示框架。
- 补全:通过填补缺失信息,增强图谱的完整性和丰富度。
- 实体统一(消歧)
- 消歧:合并指代同一实体的不同表述,确保图谱中的一致性。
- 实体分类
- 分类:将实体归入相应类别或类型,优化数据组织和理解。
- 知识检索问答(简单推理)
- 检索问答:从知识图谱中提取信息,进行基本推理,回答查询问题。
- 复杂关系推理
- 复杂推理:超越简单查询的多步骤推理,涉及多个实体和关系的分析。
这些任务是知识图谱技术应用的核心,涵盖从基础构建到高级推理的各个方面,是实现知识管理和智能应用的关键步骤。
技术架构原理
- 数据获取
- 半结构化数据:为实体及其属性构建提供基础。
- 结构化数据:为数值属性整合和分析奠定基础。
- 知识获取
- 命名实体识别:自动从文本中识别实体(如人名、地名、机构名)。
- 关系抽取:从语料库中提取实体间的关系,构建关系网络。
- 属性信息采集:从多样信息源中获取实体的特定属性。
- 知识融合
- 指示代词合并:确保文本连贯性。
- 消歧:消除同一实体的歧义,确保一致性。
- 实体匹配:将识别的实体与知识库中的目标实体对应。
- 知识加工
- 知识概念模块构建:抽取本体信息,形成知识结构。
- 推理与可信度评估:对知识图谱进行推理,并评估其可信度。
- 知识存储:将通过评估的图谱存入知识库,不通过的返回调整。
- 知识存储与计算
- 存储:实现快速查询与运用,支持底层数据描述与上层计算。
知识图谱的产品形态与应用
起源与聚焦
- 网络搜索引擎:最初设计服务于互联网用户的通用搜索引擎。
- 内部搜索引擎:逐渐发展为满足特定领域或企业内部的搜索需求。
知识范围与目标
广域网中的通用知识
- 目标:创建通用知识图谱,提升搜索精度,实现智能化推荐。
- 特征:高度通用,适用于日常应用场景,依赖高效的网络爬虫技术。
局域网中的专业知识
- 目标:构建特定领域或企业级知识库,以精准搜索为核心。
- 特征:专业性强,针对性高,减少通用性。
应用示例
- 百科词条搜索:提供关键词相关内容推荐和问答服务。
- 企业内部业务检索:助力企业进行专业知识的检索和问答。
知识图谱可视化
- 升级:引入大数据知识图谱,直观展示复杂的知识与关系网络。
知识图谱行业解决方案
数据治理与抽取
- 目标:通过数据治理,提取关键知识点和关系,支持组织应用和业务分析。
行业知识图谱
- 知识资源形成:融合特定领域数据与专业知识,构建丰富的知识资源。
- 特征与应用:专注行业知识的应用,依赖精准的领域专家数据标注。
知识图谱的产业链与应用领域
产业链特点
- 上游:数据源与基础层,包括结构化、半结构化、非结构化数据,及计算存储能力。
- 中游:知识图谱构建与技术服务,包括知识抽取、表示、建模与平台配置。
- 下游:应用模型与服务,包括金融、政务、公安、医疗等领域的前端业务支持。
应用层与支撑技术
- 应用层:包括互联网通用知识图谱和行业定制解决方案。
- 支撑技术:包括知识图谱构建、存储、推理等核心技术。
应用领域
- 金融:信贷风控、精准营销、业务流程优化。
- 政务与公安:公安研判、司法辅助审查、政务服务。
- 医疗:医疗辅助、医学科研、用户服务。
- 工业与电力:产品研发、安全质量控制、供应链管理。
实际案例分析
数禾的风控图谱应用
业务背景与挑战
知识图谱在金融风控领域的应用引发了广泛关注。虽然传统方法成本高、效率低,但通过利用图神经网络模型(GNN),可以在反欺诈场景中深度挖掘关系网络,从而提升风险管理的效果。
当前,已有的关联数据构成了庞大的关系图谱,但数据量的增长带来了分析成本的提升,限制了人工分析的深入性。
数据与模型
数据准备:筛选80多个风控反欺诈场景中最有效的特征作为节点特征,利用图结构特性,通过在损失函数中添加权重,解决数据不平衡问题。
模型架构:
- GraphSage结合GAT:通过GraphSage进行多层邻居采样,构建子图;在子图上应用GAT进行邻居节点聚合,最终输出风险评估结果。
结果
在多个测试集中,GNN模型展现出良好的风险区分度,融合传统模型后,AUC显著提升。
微信支付的图计算实践
样本增强
违约贷款用户的数量通常较少,导致学习样本不足,影响模型的准确性。通过构建用户间的复杂网络,图计算技术能够揭示用户之间的潜在关联,并找出与违约用户特征相似的群体,从而扩展学习样本的数量。这种增强策略不仅提升了模型的训练效率,也显著提高了预测效果。
传播染色
在图计算实践中,传播染色是一种关键技术,主要用于评估风险在网络中的扩散情况。通过分析用户之间的关联关系,可以识别出潜在的恶意行为并确定其传播路径。
-
染色流程:
- 目标用户识别:首先识别可能受到风险影响的用户群体。
- 恶意等级计算:使用传播染色技术,评估每个节点(用户或实体)的恶意等级。
- 染色效果:被染色的节点代表其已被识别为潜在的风险传播载体。
-
个性化PageRank:采用个性化PageRank算法对节点的重要性进行评估,进一步增强染色过程的精确性。
基于时序的异常挖掘
在金融交易监控中,及时发现异常交易行为对于风险管理至关重要。基于时序的异常挖掘技术能够帮助快速识别异常交易活动,从而有效预防金融风险。
- HP滤波器:通过Hodrick-Prescott滤波器分析交易数据,识别出异常交易点。这一方法广泛用于经济时间序列分析中,专注于提取数据的周期性成分。
- TLSTM:结合时序卷积网络(Temporal Convolutional Network, TCN)和长短期记忆网络(Long Short-Term Memory, LSTM)的优势,提升时序数据处理能力。
- EgoTLSTM算法:将交易时序信息与边信息结合,通过EgoTLSTM算法增强对异常交易行为的识别能力。
团伙快速挖掘
在金融领域,识别资金转移背后的团伙活动对于防范金融风险至关重要。通过分析交易模式和行为特征,可以有效识别参与不法活动的二级账户,并利用关系网络逐层关联账号,追踪资金的扩散路径。
- 可信度判断:基于阈值和专家经验来评估关系的可信度。
- 连通分量算法(Connected Component):快速挖掘团伙结构,分析其内部关系。
- TPNe算法:通过TPNe算法深入分析团伙内角色及层级结构,提高识别精度。
融慧金科
团伙欺诈识别
在金融欺诈预防中,识别团伙活动的迹象至关重要。通过分析借贷申请日期的断层及地理位置的异常,可以揭示潜在的欺诈行为。
- 判断依据:
- 申请日期断层:分析借贷申请日期,发现时间上的异常断层,提示可能的欺诈行为。
- 地理位置节点:识别出四个与借贷申请相关的不同地理位置节点。
- 业务解读:结合业务知识,对异常模式进行深入解读。例如,通过分析地理位置和WiFi信息,可以揭示某线下中介团伙的异常操作。
建信金科
在企业信贷风险评估中,建信金科采用了一种结合企业基础信息和图谱分析的综合方法,提升风险分类的准确性。
- 企业信息收集:包括工商注册信息、财务报表、信用记录等。
- 企业图谱构建:基于企业间的关联关系,揭示企业网络结构。
- 一度邻居分析:特别关注与目标企业直接相连的企业,分析其中具有欺诈标签的企业,并计算其占比作为图谱嵌入特征,用于评估目标企业的潜在风险。
蚂蚁集团
基础数据建设
- 海量异构数据存储:实现大规模异构数据的长期时序存储。
- 业务数据标准化:建立业务数据的标准化流程,确保一致性。
- 跨业务知识复用:在不同业务之间合规复用知识,提高数据利用效率。
实体间关系预测
- 用户与商户识别:在同一实体间识别用户与商户的关系。
- 企业与实控人(UBO)识别:确保企业与实际控制人的关系透明并可解释。
- 上下游关系分析:分析企业间的上下游关系,确保供应链管理的完整性。
团伙挖掘
- 专家经验形式化:将专家经验转化为可操作的描述性语言(DSL)。
- 基于专家经验的团伙识别:自动化挖掘团伙识别规则,利用社区发现技术识别潜在团伙结构。
信贷风险管理
- 贷前风险评估:预测潜在风险,确保信贷决策的合理性。
- 贷中风险监控:实时评估交易风险,监控资金流向。
- 贷后管理:通过对资金流向的监控与风险跟踪,确保贷后资金安全。
58信息安全
反欺诈技术方案
反欺诈技术方案分为高级建模、特征提取和关系构图三个主要模块。
-
高级建模:采用社区发现、标签传播、Node2Vec + XGBoost等技术,并使用图卷积网络(GCN)提高模型的预测性能。
-
特征提取:从设备、内容、行为、信用四个维度提取关键特征,如手机号、信息内容特征、登录行为等。
-
关系构图:通过设备聚集性、内容相似性和行为同步性构建用户关系图,识别潜在的欺诈行为。
通过综合分析这些特征,反欺诈系统能够有效识别并防范各种复杂的欺诈行为。
模型性能对比
在反欺诈应用中,GraphSaint模型在精确率、召回率和F1分数方面表现最佳,且训练时间较短,显示出其在实际应用中的优势。