本文最后更新于:21 小时前
知识图谱
图谱简述
业务参考公司:
知识抽取
知识图谱设计
- 通过熟悉业务流程,决定节点和关系
业务原则
一切要从业务逻辑出发,并且通过观察知识图谱的设计也很容易推测其背后业务的逻辑,而且设计时也要想好未来业务可能的变化”
分析原则
效率原则让知识图谱尽量轻量化、并决定哪些数据放在知识图谱,哪些数据不需要放在知识图谱
效率原则
效率原则的核心在于把知识图谱设计成小而轻的存储载体
冗余原则
有些重复性信息、高频信息可以放到传统数据库当中。
看不出业务逻辑案例
业务逻辑清晰案例
知识图谱的存储
数据演示
基于
RDF
的存储基于
图数据库
的存储
数据库 | 存储格式 |
---|---|
Neo4j | 图数据 |
JanusGraph | 图数据 |
OrientDB | 图,文档 |
Jena | RDF |
10亿节点以下规模的图谱
- 使用Neo4j
超过10亿节点的庞大数据量
- 选择支持准分布式的系统(OrientDB, JanusGraph)
- 过效率、冗余原则把信息存放在传统数据库中,减少知识图谱信息量
知识图谱的应用
落地模式
信息检索/搜索:搜索引擎中对实体信息的精准聚合和匹配、对关键词的理解以及对搜索意图的语义分析等;
自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;
问答系统:匹配问答模式和知识图谱中知识子图之间的映射;
推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项,知识图谱+推荐系统;
电子商务:构建商品的知识图谱用于精准匹配用户的购买意愿和商品候选集,知识图谱+推荐系统;
金融风控:利用实体之间的关系分析金融活动的风险以提供在风险触发后的补救措施(如反欺诈等);
公安刑侦:分析实体和实体之间的关系获取案件线索等;
司法辅助:法律条文的结构化表示和查询用于辅助案件的判决等;
教育医疗:提供可视化的知识表示,用于药物分析、疾病诊断等;
社交类业务:社交类业务具备高度连接的特点,比如 好友关系 等,<用户1,关注,用户2>。
技术应用
基于规则的方法论
【不一致性验证】
通过规则找出潜在的矛盾点
- 如:李明、李飞注明同样的公司电话,但两人公司数据不一致
【基于规则提取特征】
特征一般基于深度的搜索
- 如:申请人二度关系里有多少个实体触碰了黑名单?
基于模式的判断
适用于找出团体欺诈
核心在于通过一些模式找到有可能存在风险的团体或者子图(sub-graph),然后对这部分子图做进一步的分析
如:三个实体共享很多信息,可看做为团体并进一步分析
基于概率的方法
- 中心性算法类
- 对节点的重要性进行计算.
- 例如搜索引擎的结果,根据每个网页的引用数量进行重要性排序
- 例如搜索引擎的结果,根据每个网页的引用数量进行重要性排序
- 社区检测算法类
- 一种用于在图形中查找社区的快速算法。
- 它仅使用网络结构作为指导来检测这些社区,不需要预先定义的目标功能或有关社区的先前信息。
- 它仅使用网络结构作为指导来检测这些社区,不需要预先定义的目标功能或有关社区的先前信息。
- 相似度算法类
- 节点相似性算法会根据它们所连接的节点来比较一组节点。如果两个节点共享许多相同的邻居,则认为它们是相似的.
- 例如用于推荐, 计算两个用户的相似度,推荐一个用户购买的物品给另外一个相似用户没有购买的物品.
- …
基于动态网络的分析
聚焦时间变化与风险之间的关联
如:从T到T+1时刻的图谱结构变化,暗示着潜在风险
参考文档
本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!