读后感

5U文学网 > 作文 > 读后感 > 知识库和知识图谱存在的问题,知识图谱知识存储

知识库和知识图谱存在的问题,知识图谱知识存储

| admin

浅谈知识图谱技术及其应用补全

前言及背景:在构建知识图谱的过程中,大量知识信息来源于文档和网页信息,在从文档提取知识的过程中往往会有偏差,这些偏差来自于看两方面:

(1)文档中会有很多噪声信息,即无用信息,它的产生可能来自于知识抽取算法本身,也可能和语言文字本身的有效性有关;

(2)文档信息量有限,不会把所有知识都涵盖进去,尤其是很多常识性知识。

以上都会导致知识图谱是不完整的,所以 知识图谱补全 在构建知识图谱中日益重要。

通过 已获取的知识 来对实体间进行关系预测,以达到对实体间关系的补全,也可以是实体类型信息的补全。该过程可以利用本知识库内部的知识,也可以引入第三方知识库的知识来帮助完成。

整理了一份200G的AI资料包:

①人工智能课程及项目【含课件源码】

②超详解人工智能学习路线图

③人工智能必看优质书籍电子书汇总

④国内外知名精华资源

⑤优质人工智能资源网站整理(找前辈、找代码、找论文都有)

⑥人工智能行业报告

⑦人工智能论文合集

/p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/36ae8d96bccf490bb4d877abda852f7d","uri":"","width":31,"height":27,"darkImgUrl":"","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"

资料在网盘里排列的非常整齐干净!希望对大家的学习有所帮助, 私信备注【05】添加领取

知识图谱补全分为两个层次: 概念层次的知识补全 和 实例层次的知识补全 。

往往提到知识图谱构建过程中只是提及了实体和关系的抽取,然后就可以生成实体和关系组成的RDF了。

但是,仅仅获取三元组是不够的,还要考虑这些,因为三元组中的实体除了具有属性和关系之外,还可以 映射关联到知识概念层次的类型(type),而且一个实体的类型可以有很多 。

例如:实体奥巴马的类型在不同关系中是有变化的。

在出生信息描述中,类型为人;在创作回忆录的描述中其类型还可以是作家;在任职描述中还可以是政治家。

实体类型的概念层次模型

在这里:人、作家、政治家这些概念之间是有层次的,也就是所说的概念的层次模型。

1、概念层次的知识补全——主要是要解决实体的类型信息缺失问题

正如前面的例子所描述,一旦一个实体被判别为人这个类型,那么在以构建好的知识模式中,该实体除了人的类型外仍需要向下层概念搜索,以发现更多的类别描述信息。

(1)基于描述逻辑的规则推理机制。

本体论和模式 :实体都可以归结为一种本体,而这种本体会具有一组模式来保证其独特性,这组模式可以用规则来描述,因此,对于本体而言,其可以由这组规则来描述。

例如,奥巴马是个实体,他的本体可以归为人,而人的模式就是可以使用语言和工具、可以改造其他事务等等,这些模式可以通过规则来描述,于是基于描述逻辑的规则推理方法就出现了。

描述逻辑 是一种常见的知识表示方式,它建立在概念和关系之上。

比如,可以将关于人的实体实例(可以是文本)收集起来,从中提取出其中模式并以规则的形式记录下来,这样一来,只要遇到一个新的实体实例 ,只需将其代入到之前记录下的规则中进行比较即可做出判断,如果符合规则,就说明该实例可以归类为人的概念类型,否则就判定为非此概念类型。

(2)基于机器学习类型推理机制

经过基于描述逻辑的规则推理的发展阶段后,机器学习相关研究开始占据主流,此时 不是单纯地利用实例产生的规则等内部线索来进行判断,同时也要利用外部的特征和线索来学习类型的预测 。

对一个未知类型实体e1而言,如果能找到一个与其类似的且已知类型的实体e2的话,那么就可以据此推知实体e1的类型应该与e2的类型一致或至少相似。

此类方法主要可以分为:基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理(如,Markov逻辑网)几个方向。

(3)基于表示学习类型推理机制

将嵌入式学习和深度学习引入到类型推理,基于机器学习的类型推理方法大多假设数据中没有噪声,且其特征仍然需要认为选择和设计,引入深度学习可以避免特征工程。而类型推理要依据文本内容,也需要链接结构等其他特征的支持,此时嵌入式方法可以发挥其自身优势。

2、实例层次的知识补全

可以理解为:对于一个实例三元组(SPO,主谓宾),其中可能缺失情况为(?,P,O),(S,?,O)或者(S,P,?),这就如同知识库中不存在这个三元组,此时需要预测缺失的实体或者关系是什么。

事实上, 很多缺失的知识是可以通过已经获得的知识来推知的 ,有时这个过程也被称为 链接预测 。

注意 :有时知识不是缺失的,而是 新出现 的,即出现了新的三元组,且这个三元组不是原知识库所已知的知识,此时需要将其作为新知识补充道知识库中,但此种情形 不是传统意义的补全 。

(1)基于随机游走的概率补全方法

(2)基于表示学习的补全方法

知识图谱嵌入流程:

①结构嵌入表示法

②张量神经网络法

③矩阵分解法

④翻译法

(3)其他补全方法

跨知识库补全方法、基于信息检索技术的知识库补全方法、知识库中的常识知识补全

面临的挑战和主要发展方向:

(1)解决长尾实体及关系的稀疏性。

知名的明星的关系实例会很多,而对于普通民众的实例就很少,但是他们数量却众多,导致其相关的关系实例也是十分稀疏,而且在数量不断增加的情况下,这种情况会更加明显。

(2)实体的一对多、多对一和多对多问题。

对于大规模数据,不是一对十几或者几十数量级那么简单,而是成百上千的数量级,传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。

(3)三元组的动态增加和变化导致KG的动态变化加剧。

新知识源源不断的产生,而之前的知识可能被后面证明是错误的,或者需要修正的。这些都会使得知识补全的过程也需修正改变,如何使得知识图谱补全技术适应KG的动态变化变得越来越重要,而这方面的技术还未引起足够的重视。

(4)KG中关系预测路径长度会不断增长。

关系预测能推理的长度是有限的,但在大规模知识图谱闪光,实体间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。

知识图谱应用解决哪些行业痛点?

这个要看哪方面的知识图谱了。我比较了解的是知识图谱在知识管理这方面的应用。像蓝凌就有基于知识图谱的知识管理平台,蓝凌基于知识图谱的智能知识管理平台采用轻量级图谱引擎,支持自上而下、自下而上两种建模方式,通过知识智能采集、加工、搜索、推荐、推送、问答等知识应用场景,帮助组织搭建智能知识库,减省人工繁琐操作,赋能组织提效降本,提升知识效益。国电大渡河、江苏电力都有用,可以了解一下。

基础知识-知识图谱

知识图谱的构建形式:

自顶向下:先为知识图谱定义好本体与数据模式,再将实体加入到知识库。

自底向上(常用) :从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。

(1)语义信息抽取; (2)多元数据集成与验证(知识融合); (3)知识图谱补全

知识库分类:

开放链接知识库:Freebase、Wikidata、DBpedia、YAGO。包含大量半结构化、非结构化数据。

垂直行业知识库(特定领域):IMDB(影视)、MusicBrainz(音乐)、ConceptNet(概念)等。

基于规则与词典的方法(为目标实体编写模板,然后进行匹配):编写大量规则或模板,覆盖领域有限,难以适应新需求

基于统计机器学习的方法(机器学习,训练模型,识别实体):监督学习算法受训练集限制,准确率和召回率不够理想

( 召回率:真阳性 / 真阳性 + 假阳性;准确率:真阳性 + 真阴性 / 真阳性 + 假阳性 + 真阴性 + 假阴性 )

面向开放域的抽取方法(面向海量的Web语料):通过少量实体实例建立特征模型,再通过它应用于新的数据集,给新实体做分类与聚类。(迭代扩展)

早期:人工构造语义规则以及模板的方式;

实体间的关系模型代替了早期的人工构造;

面向开放域的信息抽取框架(OIE):对隐含关系抽取性能低下。

( 隐含关系抽取:基于马尔科夫逻辑网、基于本体推理的深层隐含关系抽取方法 )

可以将实体属性的抽取问题转换为关系抽取问题

分布式表示 目的在于用 一个综合的向量来表示实体对象的语义信息 ,这种形式在知识图谱的计算、 补全 、推理等方面起到重要的作用:

1、语义相似度计算:实体间的语义关联程度,为自然语言处理(NLP)等提供了极大的便利

2、

消除异构数据中实体冲突、指向不明等不一致性问题。

(1)待对齐数据分区索引;

(2)利用相似度函数或相似性算法查找匹配实例;

(3)对齐算法(成对实体对齐、全局(局部)集合实体对齐)进行实例融合。

经过实体对齐后得到一系列的基本事实表达,然后事实并不等于知识,它只是知识的基本单位。

本体相当于知识库的模具,使其具有较强的层次结构和较小的冗余程度。

可分为人工构建和数据驱动自动构建。

数据驱动的本体自动构建:

①纵向概念间的并列关系计算:计算两个实体间并列关系的相似度,辨析他们在语义层面是否属于同一个概念。

②实体上下位关系抽取。

③本体生成:对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词。

通常是与实体对齐任务一起进行:对知识可信度进行量化,保留置信度较高的,舍弃置信度较低的。

主要包括模式层的更新与数据层的更新。

一阶谓词逻辑、描述逻辑以及规则等

(1)一阶谓词逻辑:以命题为基本,命题包含个体(实体)和谓词(属性或关系)。

(2)基于描述逻辑的规则推理:在(1)的基础上发展而来,目的是在知识表示能力与推理复杂度之间追求一种平衡。

(3)通过本体的概念层次推理。

一些算法主要是 利用了关系路径 中的蕴涵信息:

通过图中两个实体间的多步路径来预测它们之间的语义关系,即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。

( 关系路径的建模研究仍处于初期阶段,需要进一步探索完成 )

参考文献:

[1]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.

222922