基于异质网络层次注意力机制的基因功能预测

引用本文

万美含, 熊贇, 朱扬勇. 基于异质网络层次注意力机制的基因功能预测[J]. 计算机工程, 2020, 46(7), 43-49. DOI: 10.19678/j.issn.1000-3428.0054805.

WAN Meihan, XIONG Yun, ZHU Yangyong. Gene Function Prediction Based on Hierarchical Attention Mechanism in Heterogeneous Network[J]. Computer Engineering, 2020, 46(7), 43-49. DOI: 10.19678/j.issn.1000-3428.0054805.

基金项目

国家自然科学基金（U1636207，91546105）；上海市科技发展基金（16JC1400801）

作者简介

万美含(1994-), 女, 硕士研究生, 主研方向为数据挖掘;
熊贇, 教授、博士生导师;
朱扬勇, 教授、博士生导师

文章历史

收稿日期：2019-05-05
修回日期：2019-07-15

Contents Abstract Full text Figures/Tables PDF

基于异质网络层次注意力机制的基因功能预测

万美含^1,2,3 , 熊贇^1,2,3 , 朱扬勇^1,2,3

1. 复旦大学计算机科学技术学院, 上海 200433;
2. 上海市数据科学重点实验室, 上海 200433;
3. 上海先进通信与数据科学研究院, 上海 200433

收稿日期：2019-05-05；修回日期：2019-07-15

基金项目：国家自然科学基金（U1636207，91546105）；上海市科技发展基金（16JC1400801）

作者简介：万美含(1994-), 女, 硕士研究生, 主研方向为数据挖掘; 熊贇, 教授、博士生导师; 朱扬勇, 教授、博士生导师.

E-mail: 16210240040@fudan.edu.cn

摘要：基因组测序技术的快速发展使得生物数据库中的基因和基因组序列数据数量迅速增加，但其中仍有大量基因功能是未知的。为此，提出基于异质网络层次注意力机制的基因节点表示学习方法HAGE，用以预测基因功能。结合多种来源的数据集，构建一个具有节点属性的基因功能相关异质网络，在网络中使用层次注意力机制为每一个基因节点学习一个节点嵌入向量，该向量可用于后续的基因功能预测等任务。实验结果表明，与GraphSAGE和GAT等方法相比，HAGE具有更好的预测性能。

Gene Function Prediction Based on Hierarchical Attention Mechanism in Heterogeneous Network

WAN Meihan^1,2,3 , XIONG Yun^1,2,3 , ZHU Yangyong^1,2,3

1. School of Computer Science and Technology, Fudan University, Shanghai 200433, China;
2. Shanghai Key Laboratory of Data Science, Shanghai 200433, China;
3. Shanghai Institute of Advanced Communications and Data Science, Shanghai 200433, China

Abstract: The rapid development of genome sequencing has led to the explosive growth of gene and genomic sequence data in biological databases, in which functions of a large number of genes still remain unknown.Therefore, this paper proposes a gene node representation learning method, HAGE, based on hierarchical attention mechanism in heterogeneous network to predict the function of genes.Firstly, a gene function-related heterogeneous network with node attributes is constructed.Then the hierarchical attention mechanism is used in network to enable each gene node to learn a node embedding vector, which can be used for subsequent tasks such as gene function prediction.Experimental results show that the proposed method has better performance than GraphSAGE, GAT and other methods.

0 概述

基因是具有功能性的DNA片段^[1]。由于可通过功能产物的表达或基因表达调控来影响生物体性状^[2], 因此确定基因的功能是生物学中的核心问题之一, 其对了解疾病的生化过程、识别和验证新药物的靶点等都具有重要意义^[3]。

基因组测序的快速发展使得生物数据库中基因和基因组序列的数据规模爆炸式增长, 但其中有大量的基因功能仍是未知的^[4]。因此, 通过已有的基因特性信息对基因的功能进行预测是目前的研究热点。

目前, 已有大量的基因功能预测方法被提出, 总体可归为两类:一类是基于guilt-by-association原则的方法, 即与相似的生物物质(如疾病)相连的基因应共享相同的功能^[5], 通过融合不同类型的生物数据, 构建一个与基因功能相关的网络来预测基因的功能^[6]; 另一类是基于基因本体(Gene Ontology, GO)的方法, 即基因本体通过结构化的术语以分子功能、生物过程和细胞成分3种属性来描述基因, 如文献[7-9]利用基因本体计算不同基因之间的相似度, 实现对基因功能的准确预测。本文结合上述两类方法, 将基因本体数据作为基因节点的属性, 使用多种数据源构建一个基因功能相关异质信息网络。

近年来, 注意力机制受到学者的关注^[10], 且在各个研究领域得到广泛应用。在异质网络表示学习方面, 文献[11]构建了HAN模型, 通过引入层次注意力机制进行异质网络节点表示学习, 文献[12]在其基础上使用节点结构特征信息构建了HANE模型, 但该模型仅适用于无节点属性的异质网络。本文将HANE模型扩展到属性异质信息网络(Attributed Heterogeneous Information Network, AHIN)中, 构建一个具有节点属性的基因功能相关异质信息网络, 并在此基础上提出基于层次注意力机制的基因节点表示学习方法HAGE。

1 相关定义

本文通过结合多种类型的公开数据集, 构建一个具有节点属性的基因功能相关异质信息网络, 并在该网络上应用基于层次注意力机制的网络表示学习方法, 为每一个基因节点生成一个节点嵌入向量, 该向量可用于后续的基因功能预测任务。对上述过程中使用的相关概念进行形式化定义:

定义1 异质信息网络^[13]是具有多种节点类型或(和)多种边类型的网络, 表示为G=(V, E, T), 其中, V是节点的集合, E是边的集合。同时, φ:V→T_v是节点到节点类型的映射, φ:E→T_e是边到边类型的映射, T_v和T_e是预设的节点和边的类型, 并满足|T_v|+|T_e|>2, T=T_v∪T_e。

由于本文使用的异质信息网络是基于基因-疾病关系网络、基因-miRNA关系网络和miRNA-疾病关系网络生成的, 因此其中包含3种节点类型(基因、疾病和miRNA)和3种边类型(基因-疾病关系、基因-miRNA关系和miRNA-疾病关系)^[14]。

定义2 网络模式^[15]是定义在节点类型和边类型上的一个有向图, 表示为S_G={T_v, T_e}。

本文构建的基因功能相关异质信息网络的网络模式如图 1所示。

	Download: JPG larger image
图 1 基因功能相关网络模式 Fig. 1 Gene function correlation network pattern

定义3 元路径^[16]是定义在网络模式S_G={T_v, T_e}上的一条路径P, 用于描述节点类型t_v₁到t_vl+1之间的关系, 表示为${{t}_{{{v}_{1}}}}\xrightarrow{{{t}_{{{e}_{1}}}}}{{t}_{{{v}_{2}}}}\to \cdots \xrightarrow{{{t}_{{{e}_{t}}}}}{{t}_{{{v}_{l+1}}}}$, 本文简写为t_v₁t_v₂…t_vl+1。

本文中使用的元路径及其含义如表 1所示。

下载CSV 表 1 基因功能相关网络中的元路径及其含义 Table 1 Meta-paths and their meanings in gene function correlation network

定义4 基于元路径的邻居给定一个节点i和元路径P, 所有通过元路径P与节点i连接的节点集合为N_i^P。

定义5 元路径的目标节点为给定一个异质信息网络G=(V, E, T)与一个元路径P:t_v₁t_v₂…t_{v_l+1}, G中所有节点类型为t_{v_l+1}的节点, 表示为V_T^P。

定义6 异质网络表示学习^[17](异质网络嵌入)给定一个异质信息网络G=(V, E, T), 对V中每一个节点学习一个d维向量X∈ℝ^V×d, 其中d≪V。

2 HAGE模型结构

在基因功能相关异质信息网络的基础上, 本文提出基于层次注意力机制的基因节点表示学习方法HAGE, 为每一个节点学习一个节点嵌入向量。HAGE模型主要包括3个部分, 即节点特征抽取、节点层次的注意力机制和元路径层次的注意力机制。

2.1 节点特征抽取

给定一个异质信息网络G=(V, E, T)以及元路径集合{P₁, P₂, …, P_m}, 对于V中的每一个节点v_i, 本文从2个方面考虑该节点的特征:节点的属性信息a_i以及该节点在网络中的结构特征f_i。

在构建的基因功能相关网络中, 基因节点属性a_i来自于基因本体数据, 将每个基因对应的本体术语转化为multi-hot编码并作为基因节点的属性。

对于节点网络中的结构特征f_i, 本文使用基于元路径的连接分布来描述。在异质网络中, 不同的元路径具有不同的语义信息, 因此, 不同元路径下相同节点间的连接分布也是不同的。对于同一对基因节点A和B, 其通过元路径基因-疾病-基因连接的路径与通过元路径基因-miRNA-基因连接的路径完全不同, 并且路径的权重和数量也不同, 因此, 其连接分布也完全不同。

对于节点对v_i与v_j, 定义其基于元路径P的连接强度I_ij^P为v_i与v_j基于元路径P相连的所有路径的权重之和:

$ \mathit{\boldsymbol{I}}_{ij}^P = \sum\limits_{k = 1}^{n_{ij}^P} {w_k^{{P_{ij}}}} $

(1)

其中, n_ij^P为v_i与v_j基于元路径P相连的所有路径的数量, w_k^P_ij为v_i与v_j基于元路径P相连的第k条路径的权重。

下面对连接强度矩阵I^P进行归一化, 作为节点结构特征矩阵F^P:

$ \mathit{\boldsymbol{F}}_{ij}^P = \frac{{\mathit{\boldsymbol{I}}_{ij}^P}}{{\sum\limits_{k{\kern 1pt} \in {\kern 1pt} V_F^P} {\mathit{\boldsymbol{X}}_{ik}^P} }} $

(2)

最后, 将每个节点v_i的节点属性与其基于元路径的结构特征进行拼接并作为节点的特征向量:

$ \mathit{\boldsymbol{h}}_i^P = \left. {{\mathit{\boldsymbol{a}}_i}{\kern 1pt} } \right\|{\kern 1pt} {\kern 1pt} \mathit{\boldsymbol{f}}_i^p $

(3)

其中, ‖表示拼接操作, f_i^P为节点结构特征矩阵F^P的第i行。

2.2 节点层次的注意力机制

首先在节点层次上使用注意力机制来学习基于元路径邻居节点的重要性, 并通过聚合这些拥有不同权重的邻居节点得到新的特征向量, 即如果基因A具有功能f, 其邻居节点中功能与功能f相同或更近似的节点应具有更大的权重, 通过聚合不同邻居节点的嵌入向量及其权重来更新基因节点A的嵌入向量。

给定通过元路径P连接的节点对v_i, v_j, 通过自注意力机制^[18]学习节点v_j对v_i的重要程度e_ij^P, 形式化定义为:

$ e_{ij}^P = {a_{{\rm{node}}}}(\mathit{\boldsymbol{h}}_i^P, \mathit{\boldsymbol{h}}_j^P;P) $

(4)

其中, a_node是一个深度神经网络, 代表节点层次的注意力机制。对于给定的元路径P, 基于该路径的所有邻居节点共享a_node。

得到基于元路径P的所有节点对v_i, v_j的重要程度后, 对其进行归一化得到权重系数α_ij^P:

$ \alpha _{ij}^P = {\rm{softmax}} (e_{ij}^P) = \frac{{{\rm{exp}}(\sigma (\mathit{\boldsymbol{a}}_P^{\rm{T}}[\left. {\mathit{\boldsymbol{Wh}}_i^P{\kern 1pt} } \right\|{\kern 1pt} {\kern 1pt} \mathit{\boldsymbol{Wh}}_j^P]))}}{{\sum\limits_{k{\kern 1pt} \in {\kern 1pt} N_i^P} {{\rm{exp}}} (\sigma (\mathit{\boldsymbol{a}}_P^{\rm{T}}[\left. {\mathit{\boldsymbol{Wh}}_i^P{\kern 1pt} } \right\|{\kern 1pt} {\kern 1pt} \mathit{\boldsymbol{Wh}}_k^P]))}} $

(5)

其中, σ是激活函数, W是权重矩阵, a_P是基于元路径P节点层次的注意力向量。

通过权重系数与基于元路径邻居节点的特征向量可以得到节点v_i新的特征向量z_i^P:

$ \mathit{\boldsymbol{z}}_i^P = \sigma \left( {\sum\limits_{j{\kern 1pt} \in {\kern 1pt} N_j^P} {\alpha _{ij}^P} \mathit{\boldsymbol{Wh}}_j^P} \right) $

(6)

为使训练过程更加稳定, 将节点层次的注意力机制扩展到多头注意力机制, 即基于K个独立的节点层次的注意力机制计算z_i^P, 并对结果进行拼接得到最终的节点向量:

$ \mathit{\boldsymbol{z}}_i^P = \mathop {\left\| {} \right.}\limits_{k = 1}^K \sigma (\sum\limits_{j \in N_i^P} {\alpha _{ij}^P} {\mathit{\boldsymbol{W}}^k}\mathit{\boldsymbol{h}}_j^P) $

(7)

给定一系列元路径的集合{P₁, P₂, …, P_m}, 基于节点特征向量并利用节点层次的注意力机制可以得到m组新的节点特征向量{Z_P₁, Z_P₂, …, Z_{P_m}}。

2.3 元路径层次的注意力机制

基于节点层次的注意力机制可以得到不同元路径下新的节点特征向量, 为得到最终的节点嵌入向量, 需要对不同元路径下的节点特征向量进行融合。

在异质网络中, 不同的元路径代表不同的语义信息, 因此, 需要为不同的元路径分配不同的权重。使用一个元路径层次的注意力机制^[11]来学习不同元路径的重要程度β_P。给定元路径的集合{P₁, P₂, …, P_m}以及基于节点层次注意力机制得到的新的节点特征向量{Z_P₁, Z_P₂, …, Z_{P_m}}, 为每个元路径P_i学习一个权重系数β_{P_i}, 定义为:

$ {\beta _{{P_i}}} = {a_{{\rm{ meta }}}}({\mathit{\boldsymbol{Z}}_{{P_i}}}) $

(8)

其中, a_meta是一个深度神经网络, 代表元路径层次的注意力机制。不同的元路径将学习到不同的权重, 对基因功能预测任务更重要的元路径将具有更大的权重。

为学习不同元路径的重要程度, 首先对基于节点层次的注意力机制得到的节点特征向量进行非线性变换, 然后将变换后的特征向量与元路径层次的注意力向量q的相似度作为元路径的重要程度。因此, 对于元路径P_i, 其重要程度w_{P_i}表示为:

$ {w_{{P_i}}} = \frac{1}{{|V_T^{{P_i}}|}}\sum\limits_{k{\kern 1pt} \in {\kern 1pt} V_T^{{P_i}}} {{\mathit{\boldsymbol{q}}^{\rm{T}}}} \cdot {\rm{tanh}}(\mathit{\boldsymbol{Wz}}_k^{{P_i}} + \mathit{\boldsymbol{b}}) $

(9)

其中, W是权重矩阵, b是偏置向量, q是元路径层次的注意力向量。

得到每条元路径的重要程度w_i后, 对它们进行归一化处理, 得到每条元路径的权重系数β_i:

$ {\beta _{{P_i}}} = {\rm{softmax}} ({w_{{P_i}}}) = \frac{{{\rm{exp}}({w_{{P_i}}})}}{{\sum\limits_{k = 1}^m {{\rm{exp}}} ({w_{{P_k}}})}} $

(10)

对不同元路径下的节点特征向量进行融合, 得到最终的节点嵌入矩阵Z:

$ \mathit{\boldsymbol{Z}} = \sum\limits_{i = 1}^m {{\beta _{{P_i}}}} {\mathit{\boldsymbol{Z}}_{{P_i}}} $

(11)

为提高模型的精度, 本文增加一个全连接层用于分类, 并利用部分有标签的节点对模型进行优化, 使用交叉熵作为损失函数:

$ \mathcal{L} = - \sum\limits_{l{\kern 1pt} \in {\kern 1pt} {\mathit{\boldsymbol{V}}_L}} {{\mathit{\boldsymbol{Y}}_l}} {\rm{ln}}(C{\mathit{\boldsymbol{Z}}_l}) $

(12)

其中, V_L为拥有标签的节点集合, Y_l为节点的标签, Z_l为该节点的最终节点嵌入矩阵, C是分类器的参数。最后通过反向传播对模型进行优化, 学习节点的节点嵌入向量。

2.4 HAGE算法描述

注意力的计算可以在所有节点和元路径下单独计算, 因此, HAGE模型支持并行运算。给定一个元路径P, 节点层次的注意力机制时间复杂度为O(V_PF₁F₂K+E_PF₁K), 其中, V_P是节点的数量, E_P是基于元路径的节点对的数量, K是多头注意力机制的数量, F₁是节点特征的数量, F₂是输出的节点嵌入向量的维度。总体的时间复杂度与节点数量以及基于元路径的节点对呈线性关系。

HAGE模型的算法描述如下:

算法1 HAGE算法

输入异质信息网络G=(V, E, T), 元路径集合{P₁, P₂, …, P_m}, 节点属性集合{a_i, i∈V}, 多头注意力机制数量K

输出节点嵌入矩阵Z

for i∈V do

计算该节点结构特征f_i^P;

得到节点初始特征向量h_i^P=a_i‖f_i^P;

end

for P_i∈{P₁, P₂, …, P_m} do

for k=1, 2, …, K do

for i∈V do

得到节点i基于元路径的邻居N_i^P;

for j∈N_i^P do

计算节点层次权重系数α_ij^P;

end

计算节点层次的特征向量

$\text{z}_{\text{i}}^{\text{P}}=\sigma \left( \sum\limits_{\text{j}\in \text{N}_{\text{i}}^{\text{p}}}{\alpha _{\text{ij}}^{\text{P}}}\text{Wh}_{\text{j}}^{\text{P}} \right)$;

end

拼接得到节点层次的嵌入向量

${\rm{z}}_{\rm{i}}^{\rm{P}} = \mathop {||}\limits_{{\rm{k}} = 1}^{\rm{K}} \sigma \left( {\sum\limits_{{\rm{j}} \in {\rm{N}}_{\rm{i}}^{\rm{p}}} {{\rm{ \mathsf{ α} }}_{{\rm{ij}}}^{\rm{P}}} {{\rm{W}}^{\rm{k}}}{\rm{h}}_{\rm{j}}^{\rm{P}}} \right)$;

end

计算元路径层次的权重系数β_{P_i};

得到最终的节点嵌入矩阵${\rm{Z = }}\sum\limits_{{\rm{i = 1}}}^{\rm{m}} {{{\rm{ \mathsf{ β} }}_{{{\rm{P}}_{\rm{i}}}}}} {{\rm{Z}}_{{{\rm{P}}_{\rm{i}}}}}$;

end

计算交叉熵${\rm{L}} = - \sum\limits_{1 \in {{\rm{V}}_{\rm{L}}}} {{{\rm{Y}}_1}} \ln \left( {{\rm{C}}{{\rm{Z}}_1}} \right)$;

反向传播并更新HAGE模型的参数;

return节点嵌入矩阵Z

3 实验结果与分析 3.1 实验数据集

本文构建的具有节点属性的基因功能相关异质信息网络使用以下数据集:

1) 使用DisGeNET^[19]数据集构建基因-疾病关系网络。每条边的权重根据可靠性设为0~1, 选取数据集中权重在0.3以上的3 833条基因-疾病关系来构建网络。

2) 使用miRTarBase^[20]数据集构建基因-miRNA关系网络。miRTarBase是一个手工收集的经过实验验证的miRNA及其靶基因关系的数据集, 选取其中7 150对经过蛋白质印迹法以及报告基因分析验证的基因-miRNA关系, 并将权重设为1。

3) 使用2个数据集构建miRNA-疾病关系网络。第1个数据集来自文献[21]提供的242条miRNA-疾病关系; 第2个数据集来自miRNet^[22]数据集, 选取其中疾病名称可以对应到OMIM编号的666条miRNA-疾病关系。将2个数据集进行融合, 去除重复数据后, 共有267个miRNA和59个疾病组成的878条miRNA-疾病关系。由于可信度较高, 因此将权重设为1。

4) 使用基因本体GO数据库^[23-24]中得到所有基因节点的本体信息, 将其作为基因节点的节点属性, 共得到4 402个基因节点的基因本体信息。

5) 使用MSigDB^[25]基因集数据库中的基因家族作为节点的标签。MSigDB将数据库中的基因集按照PubMed中文献的定义进行分类, 同一家族的基因具有相似的功能性, 它们具有同源性或者生物化学活性。结果总共有1 185个基因节点获得了所属的基因家族标签。

实验数据集具体描述如表 2所示。

下载CSV 表 2 实验数据集描述 Table 2 Description of the experimental dataset

3.2 对比算法

为评估本文方法的性能, 选取以下算法作为对比方法:

1) GraphSAGE^[26]。GraphSAGE通过聚集局部邻居节点的特征来学习节点的节点嵌入向量。本文使用平均聚合器版本的GraphSAGE来证明为不同邻居节点以及元路径分配不同注意力的重要性。

2) GAT^[27]。GAT是一个基于注意力机制的同质网络表示学习方法, 其注意力系数通过单层前馈神经网络学习。本文在不同元路径上使用GAT, 选择表现最好的作为最终结果。

3) HAGE w/o struc。HAGE w/o struc是HAGE的变种, 其仅使用节点属性作为节点初始特征向量, 不考虑节点在网络中的结构特征。

4) HAGE w/o node。HAGE w/o node是HAGE的变种, 其不使用节点层次的注意力机制, 仅为不同的基于元路径的邻居节点分配相同的权重系数。

5) HAGE w/o meta。HAGE w/o meta是HAGE的变种, 其不使用元路径层次的注意力机制, 仅为不同的元路径分配相同的权重系数。

3.3 实验设置

随机初始化模型参数, 并且使用Adam^[28]作为模型的优化器。其中, 学习率设置为0.001, 正则化参数设置为0.005, 多头注意力机制数量K设置为8, 元路径层次的注意力向量q的维度为128, 最终的节点嵌入向量维度为128。实验运行环境为64位Linux系统, GPU为NVIDIA GTX 1080 Ti。

3.4 节点分类

本文使用Micro-F1、Macro-F1、Average Precision和AUC作为模型评价指标, 实验结果如表 3所示。

下载CSV 表 3 节点分类实验结果 Table 3 Experimental results of node classification

由表 3可以看出, 在Micro-F1、Macro-F1、Average Precision和AUC这4种不同的指标下, HAGE模型的分类效果均为最优。相比于GraphSAGE和GAT 2种同质网络表示学习方法, HAGE由于考虑异质网络的特点即不同元路径具有不同的语义信息, 为不同的元路径分配不同的权重, 因此能够取得更好的分类性能。与HAGE w/o struc、HAGE w/o node和HAGE w/o meta相比, HAGE的分类效果均有所提升, 由此表明同时考虑网络结构特征、节点层次以及元路径层次注意力机制的重要性。

3.5 模型性能分析

为分析本文模型的效率性能, 构建不同规模的属性异质信息网络进行实验, 结果如表 4所示。

下载CSV 表 4 本文模型时间效率 Table 4 Time efficiency of the proposed model

3.6 参数敏感性分析

对实验中使用的参数敏感性进行测试, 研究不同参数对模型结果的影响。

1)多头注意力机制数量

为测试多头注意力机制的效果, 设置不同K值进行测试, 当K=1时退化为单头注意力机制, 实验结果如图 2所示。可以看出, 随着K值的增加, AUC的值也得到提升, 当K=8时模型的分类性能最好。

	Download: JPG larger image
图 2 多头注意力机制数量对AUC的影响 Fig. 2 Effect of number of multiple attention mechanism on AUC

2) 元路径层次的注意力向量维度

元路径层次的注意力机制的分类效果受元路径层次的注意力向量q的影响, 因此, 在不同维度的注意力向量q下进行测试, 实验结果如图 3所示。可以看出, 当注意力向量q的维度为128时, 模型的分类性能最好。

	Download: JPG larger image
图 3 元路径层次的注意力向量维度对AUC的影响 Fig. 3 Effect of attention vector dimensionality in meta-path layer on AUC

3) 节点嵌入向量的维度

模型的分类效果受最终的节点嵌入向量Z维度的影响, 因此对不同维度的节点嵌入向量Z进行测试, 实验结果如图 4所示。可以看出, 模型的分类性能在维度为128时效果最好, 后续随着维度的继续增加, AUC略微降低。

	Download: JPG larger image
图 4 节点嵌入向量维度对AUC的影响 Fig. 4 Effect of node embedding vector dimensionality on AUC

3.7 注意力机制性能分析

在学习基因节点的嵌入向量时, 本文考虑了不同元路径下的邻居节点以及元路径的重要性, 并为它们分配不同的权重系数。为更好地理解权重的意义, 分别从节点层次注意力机制以及元路径层次注意力机制方面进行分析。

1) 节点层次注意力机制

本文以基因CHEK2为例, 其基于元路径基因-疾病-基因(GDG)的邻居如图 5所示, 注意力权重系数如图 6所示。其中, 基因CHEK2、BRCA2、RB1、BRCA1和TP53同属于家族tumor suppressors(抑癌基因), RNASEL属于家族protein kinases(蛋白激酶), HOXB13属于家族homeodomain proteins(同源域蛋白), PIK3CA属于家族oncogenes(致癌基因)。

	Download: JPG larger image
图 5 基因CHEK2在元路径GDG下的邻居 Fig. 5 Neighbors of gene CHEK2 under the meta-path GDG

	Download: JPG larger image
图 6 基因CHEK2邻居的权重系数分布 Fig. 6 Weight coefficient distribution of neighbors of gene CHEK2

从图 6可以看出, 具有相同或相似功能的同家族的邻居基因节点的权重系数较大, 其他家族的邻居基因节点权重系数较小。其中BRCA1的权重最高, 文献[29]指出CHEK2和BRCA1参与的DNA修复有关, 与乳腺癌发生有较密切的关系, 因此, 它们之间的功能关联更密切。由此可见, 本文模型可以较好地学习到基因节点层次的重要性。

2) 元路径层次注意力机制

为分析模型学习到的不同元路径的权重系数是否反映了该元路径对基因功能预测任务的重要性, 对比仅使用该元路径进行基因功能预测的结果以及该元路径的注意力权重系数, 结果如图 7所示。

	Download: JPG larger image
图 7 3种元路径的AUC与注意力权重系数对比 Fig. 7 Comparison of AUC and attention weight coefficients of three meta-paths

由图 7可以看出, 单个元路径的预测结果与该元路径的注意力权重系数是成正比的, 即该元路径单独进行基因功能预测时得到的AUC越高, 其注意力权重系数越大。由此可见, 本文模型能够较好地学习到不同元路径对基因功能预测任务的重要性。

4 结束语

本文提出基于异质网络层次注意力机制的基因节点表示学习方法HAGE。结合不同来源的数据集构建一个具有节点属性的基因功能相关网络, 使用节点属性以及节点在网络中的结构特征作为节点初始向量, 并通过层次注意力机制为每一个基因节点学习一个节点嵌入向量, 将其用于后续的基因功能预测任务。实验结果表明, 与GraphSAGE、GAT等方法相比, 本文方法能够取得较好的预测效果。下一步将把本文方法拓展到不同的生物数据集中进行预测, 如蛋白质交互网络、miRNA基因共表达网络和代谢网络等。

参考文献

[1]	WAIN H M, BRUFORD E A, LOVERING R C, et al. Guidelines for human gene nomenclature[J]. Genomics, 2002, 79(4): 464-470.
[2]	PEARSON H. Genetics:what is a gene?[J]. Nature, 2006, 441(7092): 398-401.
[3]	MURALI T M, WU C J, KASIF S. The art of gene function prediction[J]. Nature Biotechnology, 2006, 24(12): 1474-1475.
[4]	ENRIGHT A J, KUNIN V, OUZOUNIS C A. Protein families and TRIBES in genome sequence space[J]. Nucleic Acids Research, 2003, 31(15): 4632-4638.
[5]	PAVLIDIS P, GILLIS J. Progress and challenges in the computational prediction of gene function using networks[J]. F1000 Research, 2012, 1: 1-14.
[6]	LEE I, AMBARU B, THAKKAR P, et al. Rational association of genes with traits using a genome-scale gene network for Arabidopsis thaliana[J]. Nature Biotechnology, 2010, 28(2): 149-156.
[7]	RONG Hejiang, WANG Yadong. Computation method for semantic similarity based on gene ontology[J]. Intelligent Computer and Applications, 2019, 9(1): 108-113, 118. (in Chinese) 荣河江, 王亚东. 基于基因本体的相似度计算方法[J]. 智能计算机与应用, 2019, 9(1): 108-113, 118.
[8]	WEI Wei, XIANG Yang, CHEN Qian. Research on semantic similarity based on gene ontology[J]. Computer Engineering, 2010, 36(20): 209-210, 219. (in Chinese) 魏韡, 向阳, 陈千. 基于基因本体的语义相似度研究[J]. 计算机工程, 2010, 36(20): 209-210, 219.
[9]	VAFAEE F, ROSU D, BROACKES-CARTER F, et al. Novel semantic similarity measure improves an integrative approach to predicting gene functional associations[J]. BMC Systems Biology, 2013, 7(1): 1-17.
[10]	ZHOU Yujia, DOU Zhicheng, GE Songwei, et al.Dynamic personalized search algorithm based on recursive neural network and attention mechanism[J/OL].Chinese Journal of Computers: 1-16[2019-04-30].http://kns.cnki.net/kcms/detail/11.1826.TP.20190624.1709.002.html.(in Chinese) 周雨佳, 窦志成, 葛松玮, 等.基于递归神经网络与注意力机制的动态个性化搜索算法[J/OL].计算机学报: 1-16[2019-04-30].http://kns.cnki.net/kcms/detail/11.1826.TP.20190624.1709.002.html.
[11]	WANG Xiao, JI Houye, SHI Chuan, et al.Heterogeneous graph attention network[C]//Proceedings of the Web Conference 2019.San Francisco, USA: [s.n.], 2019: 1-10.
[12]	ZHOU Sheng, BU Jiajun, WANG Xin, et al.HAHE: hierarchical attentive heterogeneous information network embedding[EB/OL].[2019-04-30].https://arxiv.org/pdf/1902.01475.pdf.
[13]	SUN Yizhou, HAN Jiawei. Mining heterogeneous information networks:a structural analysis approach[J]. ACM SIGKDD Explorations Newsletter, 2013, 14(2): 20-28.
[14]	XIONG Yun, RUAN Lu, GUO Mengjie, et al.Predicting disease-related associations by heterogeneous network embedding[C]//Proceedings of 2018 IEEE International Conference on Bioinformatics and Biomedicine.Washington D.C., USA: IEEE Press, 2018: 548-555.
[15]	SHI Chuan, LI Yitong, ZHANG Jiawei, et al. A survey of heterogeneous information network analysis[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(1): 17-37.
[16]	SUN Yizhou, HAN Jiawei, YAN Xifeng, et al. PathSim:meta path-based top-k similarity search in heterogeneous information networks[J]. Proceedings of the VLDB Endowment, 2011, 4(11): 992-1003.
[17]	DONG Y, CHAWLA N V, SWAMI A.Metapath2vec: scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA: ACM Press, 2017: 135-144.
[18]	VASWANI A, SHAZEER N, PARMAR N, et al.Attention is all you need[EB/OL].[2019-03-30].https://arxiv.org/pdf/1706.03762.pdf.
[19]	PIÑERO J, BRAVO À, QUERALT-ROSINACH N, et al. DisGeNET:a comprehensive platform integrating information on human disease-associated genes and variants[J]. Nucleic Acids Research, 2017, 45(D1): 833-839.
[20]	CHOU C H, CHANG N W, SHRESTHA S, et al. MiRTarBase 2016:updates to the experimentally validated miRNA-target interactions database[J]. Nucleic Acids Research, 2015, 44(D1): 239-247.
[21]	CHEN Hailin, ZHANG Zuping. Similarity-based methods for potential human microRNA-disease association prediction[J]. BMC Medical Genomics, 2013, 6(1): 1-5.
[22]	FAN Y, SIKLENKA K, ARORA S K, et al. MiRNet-dissecting miRNA-target interactions and functional associations through network-based visual analysis[J]. Nucleic Acids Research, 2016, 44(W1): 135-141.
[23]	ASHBURNER M, BALL C A, BLAKE J A, et al. Gene ontology:tool for the unification of biology[J]. Nature Genetics, 2000, 25(1): 25-29.
[24]	Gene Ontology Consortium. The gene ontology resource:20 years and still GOing strong[J]. Nucleic Acids Research, 2018, 47(D1): 330-338.
[25]	SUBRAMANIAN A, TAMAYO P, MOOTHA V K, et al. Gene set enrichment analysis:a knowledge-based approach for interpreting genome-wide expression profiles[J]. Proceedings of the National Academy of Sciences, 2005, 102(43): 15545-15550.
[26]	HAMILTON W L, YING R, LESKOVEC J.Inductive representation learning on large graphs[C]//proceedings of the 31st Conference on Neural Information Processing System.Long Beach, USA: [s.n.], 2017: 1-11.
[27]	VELICKOVIC P, CUCURULL G, CASANOVA A, et al.Graph attention networks[EB/OL].[2019-03-30].https://arxiv.org/pdf/1710.10903.pdf.
[28]	KINGMA D P, BA J.Adam: a method for stochastic optimization[EB/OL].[2019-04-10].https://arxiv.org/pdf/1412.6980v8.pdf.
[29]	XIANG Beiting, LU Yunfei, ZHANG Haitian. CHEK2 gene mutation and breast cancer[J]. Chinese Journal of General Surgery, 2009, 24(4): 331-332. (in Chinese) 向俾庭, 陆云飞, 张海添. CHEK2基因突变与乳腺癌[J]. 中华普通外科杂志, 2009, 24(4): 331-332.