基于Alpha-NMF的AD样本分类及特异性基因选择方法

时间：05-25 来源：互联网点击：

摘要：由于基因表达谱数据的高噪声、高维性、高冗余以及数据分布不均匀等特点使得在分析过程中仍然有很多挑战性问题。基于该目的，将一种无监督学习方法--非负矩阵分解方法，应用到基因表达谱数据中，挖掘出与AD相关的信息基因。然而标准NMF算法其效率较低，并且在基因表达数据的应用有效性低。为了适应该领域的需求，采用了Alpha-NMF算法。该算法能够有效的克服标准NMF算法的缺陷，获得较好的实验结果。多次运行Alpha-NMF算法，选取分类准确率和稳定性最优的实验结果，对其集合基因设定一阈值，筛选出集合基因中大于该阈值的信息基因。最后通过基因功能分类以及生物功能结构图来验证所捉炼出的特异性基因的有用性和可靠性。
关键词：无监督学习；阿尔茨海默病；非负矩阵分解(NMF)；基因表达谱数据；Alpha-NMF

阿尔茨海默病(Alzheimer disease，AD)是德国神经病学家Alois Alzheimer于1907年首次对一位51岁的病人描述的，至今对AD的认识和研究已经进行了100余年了。它是老年人中最常见的神经退行性疾病之一，其临床特点是隐袭起病，逐渐出现记忆力减退、认知功能障碍、行为异常和社交障碍。65岁以上老年痴呆人群中超过55％的病例是阿尔茨海默病。随着全球人口的老龄化，痴呆患病人数大量增加，阿尔茨海默病已经成为人类共同面临的严峻挑战。
DNA微阵列技术能够对大量的基因进行同步、快速测量，同时提供成千上万条基因的表达水平，使得生物学家能够在基因组层次上研究任何种类细胞在任意给定时间、任意给定条件下的基因表达模式。由于基因表达谱数据的高噪声、高维性、高冗余以及数据分布不均匀等特点使得在分析过程中仍然有很多挑战性问题。
非负矩阵分解(non-negative matrix factorization，NMF)方法由Lee和Seung在一篇关于无监督学习的文章中提出的一种新的矩阵分解方法。该方法在矩阵分解过程中对矩阵元素进行非负约束，在实际应用中具有明确的物理意义。相比一些传统的算法，NMF具有实现简便，分解形式和分解结果可解释性强等靖多优点。NMF算法被提出后，随着研究的不断深入，为了适应不同领域的要求，一些研究者设计了基于多种目标函数的算法对标准NMF算法进行改进。目前，应用比较频繁的有释疏非负矩阵分解(sparse non-negativematrix factorization，SNMF)、非平滑非负矩阵分解(non-smoothnon-negative matrix factorization，NSNMF)以及加权非负矩阵分解(weighted non-negative matrix factorization，WNMF)等。NMF已运渐应用于语音信号处理、模式识别、图像分析等研究领域中，并且获得了很好的效果。相信不久的将来，NMF能够适应于更多领域的需求。

1 非负矩阵分解算法原里
NMF理论上是利用非负约束条件来获取数据表示的一种方法。NMF问题可以描述为：已知非负矩阵Vnxm，找到一个非负矩阵Wnxr和Hrxm一个非负矩阵，使得：
V≈WH (1)
此时矩阵V中的列向量可以近似地看作是非负矩阵W的列向量的非负线性组合，组合系数为hj的分量。因此矩阵W=(w1，…，wr)可以看成是对V进行线性估计的一组基，而H则是V在基W上的非负投影系数。
1．1 基本NMF算法
根据NMF理论的数学模型，必须找到一个分解过程V≈WH，使得WH尽量逼近V，可以定义一个目标函数来保证逼近的效果。目标函数可以利用某些距离的测量来获得，通常使用的目标函数是欧式距离，即：

当且仅当V=WH时取最小值为0。因此NMF问题可以转化为优化问题用迭代方法交替求解W和H。虽然式(2)对于单独的W和H来讲均是凸函数，但是同时对于W和H却不是凸函数，因此找刭一个全局最优解是不太现实的，但可以寻找一个局都最优解。NMF算法可以定义为如下优化问题：最小化‖V-WH‖2，交替更新W，H。最简单易行的更新方法就是梯度下降法，但是其收敛速度非常缓慢。更新规则如下：

定理1：在(3)迭代规则下，欧式距离‖V-WH‖2是单调不增的，如果当W和H的值是固定的，‖V-WH‖2保持不变。
1．2 Alpha-NMF算法
Alpha-NMF算法是NMF算法的一种改进，它是针对信号处理所提出的一种新的算法。
Alpha-NMF算法的数学模型为：

2 非负矩阵分解在基因表达谱数据中的应用
2．1 数据预处理
文中所选的实验数据为基因表达综合数据库(GEO)中23组大脑海马区域(HIP)和23组内嗅区皮质(EC)的AD样本，54 675个基因表达数据；其中海马区域的基因数据集由13个control AD样本和10个affected AD样本组成，内鼻皮质区域的基因数据集由13个control AD样本和10个affectedAD样本组成。由于基因表达谱数据的复杂性，在进行聚类分析前必须先进行预处理和数据转换等过程。本文先采用小波变换(wave let transform，WT)方法对数据进行降噪，然后通过微阵列显著性分析(significance analysis of microarrays,SAM)工具箱筛选出显著变化的上下调基因。
2．2 Alpha-NMF算法应用于基因表达谱数据
Alpha-NMF算法被提出后，至今还设被应用于基因表达数据中，通过大量的实验，证明了Alpha-NMF算法能够有效的应用到该领域中，相比传统NMF算法，其算法稳定性和分类准确率明显较高。
基因表达谱数据的Alpha-NMF混合模型如图1所示。Y表示mxn维基因表达谱数据，每一行表示一个样本集，每一列表示一个基因在不同条件下的表达水平。yij表示第j个基因在条件i下的表达水平。通常nm。

上一篇：基于TCP／IP的多数据流传输测控系统的设计与实现
下一篇：利用多晶X射线衍射实现半导体结构在线测量

Alpha-NMF 样本分类方法相关文章：

栏目分类