面向可解释性的知识图谱推理研究（3）

发布人：数据派THU 时间：2022-11-20 来源：工程师发布文章

2. 基于贝叶斯强化学习的知识图谱推理

第二个是进行的关于贝叶斯强化学习的知识图谱推理模型。

研究发现，基于强化学习的知识图谱推理很大的问题是：

训练难以稳定，其蒙特卡洛抽样的方差比较大，奖赏稀疏。
难以利用先验知识，如利用预训练语料、属性信息、关系和实体的先验分布。
单点分布的实体和向量，不能表达语义的不确定性。

利用贝叶斯强化学习工具来建模不确定性推理。假设参数服从某种概率分布，右图显示了贝叶斯学习的有点是可以表达不确定性。

利用贝叶斯强化学习其优点是可以表达实体及关系的不确定性，这种不确定性有利于权衡探索-利用关系，通过随机性可以引入正则项，来稳定 Q 网络/策略网络的训练优化，同时贝叶斯强化的机制可以利用知识的先验分布。

其方法比较简单，就是将知识图谱中的实体和关系假设为高斯分布，通过设计合理的知识图谱 Q 函数来进行推理。

将知识图谱推理定义成马尔可夫决策过程，其环境是知识图谱，状态是实体在知识图谱中所处的位置，动作是这个位置可能连接的实体集合，策略函数是基于最大 Q 值的执行策略，奖赏函数是 0、1 奖赏。

Q 函数的定义就是一个状态动作值的定义，在 St 是状态时，对未来推理 Q 的奖赏的期望。直接求解 Q 函数通常比较困难，是通过神经网络进行拟合。具体实现方式是通过 BayesianLSTM 来拟合 Q 函数的隐状态，通过贝叶斯线性回归网络输出 Q 值。

具体的执行策略和优化策略有两种，是异策略的方式，即优化策略与执行策略函数不同。优化策略是采取贪心策略，来保证训练的利用。执行策略是通过 Tompson 采样，通过 Q 值随机化生成来保证环境的探索。

最后的目标函数是最小化 Q 函数网络的变分自由能，通过轨迹采样方式来进行优化，采用蒙特卡洛梯度进行近似优化，具体实现是通过贝叶斯反向传播的方法来训练贝叶斯神经网络。

在知识图谱进行的实验，图为事实预测的实验结果，是一个二分类预测，给定两个实体预测其关系的实验。可以发现模型在 NELL995 上大部分取得了比较好的领先。

实体预测的实验，可以发现模型可以取得较优的结果。

在小规模知识图谱上的链接预测实验，在小规模知识图谱,上的实验将最大推理长度设定为 2，设定为单步推理，也取得了一定的效果。

贝叶斯强化学习模型，没有采用随机分布的方式，与 MINERVA 进行对比，可以发现贝叶斯强化学习模型收敛的更快一些，可以引入先验分布，通过对实体的高斯分布的预训练，叶斯强化学习模型收敛的结果更好一些。

对推理的过程进行箱式图可视化，如图示例中，推理阿根廷是在哪里的？可以不确定性推理，实现 Q 值分布的不确定性，来实现不确定性推理。

图为 GaussianPath 模型在推理过程中产生了一些可解释性的推理路径。

小结：提出一个贝叶斯强化学习的知识推理模型，该模型可以表达多跳推理路径的不确定性；该模型可以利用贝叶斯网络的特性引入先验知识从而加速及稳定强化学习的网路训练。实验表明，该模型可以在标准的数据集上取得竞争性的结果。该工作发表于 2021 年 AAAI 上。

3. 异质信息网络的自动元路径挖掘

第三个工作是基于强化学习的知识图谱推理的应用，就是在异质信息网络的自动元路径挖掘。

异质信息网络是指图上的节点、关系的种类大于 1 的网络，其定义比知识图谱更加广泛。常见的异质信息网络有电影网络、引用网络、知识图谱等。

元路径是异质信息网路上非常常用的手段，是实体关系的序列，可以表达实体之间的语义特征，如，“APA”可以刻画共同发表的关系，“APVPA”可以刻画同一个课题组的关系。其在图数据挖掘中产生了一系列非常经典的工作。

元路径（Meta Path）应用非常广泛，在信息检索、数据挖掘、推荐系统中广泛应用。

元路径优点是，语义表达准确，效率较高，含有图的结构特征，可解释性好。缺点是，需要人工设计，人工构造 Meta Path，是非端到端的方法，对于长序列元路径设计比较困难。

自动得到元路径的方法是基于贪婪树的方法、K-最短路径、图遍历的方式得到 Meta Path。其存在的问题是在离散空间计算，搜索空间比较大。我们研究的异质信息网络的自动元路径挖掘模型，利用强化学习，在推理过程中得到推理路径模式，来得到元路径。

异质信息网络的自动元路径挖掘方法，在 HIN 上利用强化学习进行多跳推理，得到路径实例；在类型有向图上进行规约，得到元路径。

该工作强化学习的框架，与前面两个工作类似，就是在状态、动作设定上略有不同。在状态上加入了 vd 实体的元组；在动作上，是实体在异质信息网络的停留，其动作空间就是与其连接的边和实体；奖赏是基于 γ 的衰减的奖赏函数。

知识图谱的规模通常很大，是百万级别的实体及事实，直接给每个实体分配表向量通常会消耗非常大的存储资源和计算资源。这项工作提出一种基于类型上下文表示的方式，通过将类型向量平均来表示实体，有效减少实体向量存储的问题。

具体路径实例规约方法是基于最低祖先方法，通过在类型图上进行根节点的搜索得到元路径。如，实体类型的 DAG 如图，通过最低祖先搜索的方法得到其是 Person 的类型，最后得到类型及类型的组合，得到元路径。

实验部分采用挖掘得到的元路径进行链接预测。采用的数据集是 Yago 和 NELL，即大规模异质信息网络或知识图谱。Yago 和 NELL 具有上百万的实体，Yago 中具有 80 多万个类型；NELL 具有 700 多个类型。与 KG 的区别是具有大量的类型信息。

根据链接预测的实验，可以发现通过强化学习挖掘得到的路径，尽管其是一个比较简单的路径特征的线性回归，都可以取得比较好的效果。

同时，可以通过强化学习推理的回归的 Weight 获得元路径的权重，如，在 Yago 数据集中表示公民的关系，可以由 Person BorIn Country、Person BorIn District LocatedIn Country 主要刻画 isCitizenOf 的关系。该模型可以获得不同权重的元路径，也可以挖掘得到较长长度的元路径，还可以通过元路径的比较发现同义的元路径。