应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法
生命科学趋势
2004年4月 第2卷 第1期 Trends in Life Sciences
应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法
李霞cd 饶绍奇ef 张田文c 郭政cd 张庆普c
J. TOPOLef Kathy L. MOSERg Eric
转载自:中国科学 C辑生命科学 2004,34(2):1-8
(c哈尔滨工业大学计算机科学系, 哈尔滨 150001; d哈尔滨医科大学生物医学工程教研室与生物信息研究室,哈尔滨 150086; e Center for Cardiovascular
Genetics, Department of Cardiovascular Medicine, the Cleveland Clinic Foundation, 9500 Euclid Avenue, Cleveland, Ohio 44195, USA; f Department of Molecular
Cardiology, the Cleveland Clinic Foundation, 9500 Euclid Avenue, Cleveland, Ohio 44195, USA; g Department of Medicine, Institute of Human Genetics, University of
Minnesota, Minnesota 55455, USA)
*
责任编辑:TILS
摘要:DNA芯片技术的迅速发展,可同时检测成千上万个基因的表达谱数据,为生物科学家们从一个全新的
角度阐明生命的本质提供了可能性。目前,基因表达谱分析的工作大多集中在对癌症等疾病分类、疾病亚型识别
等,而从这些基因表达谱信息中挖掘反映疾病本质特征的相关基因,是一项在后基因组时代更具挑战意义的科学
研究,基因挖掘由于缺少理想的数据挖掘技术而被忽视。在本文中我们提出了一种新颖的特征基因挖掘的集成决
策方法,目的在于解决三个重要的生物学问题:生物学分类及疾病分型,复杂疾病相关基因深度挖掘,和目标驱
使的基因网络构建。我们成功地将此集成决策方法应用于一套结肠癌DNA表达谱数据。结果显示这一新颖的特征
基因挖掘技术在应用DNA芯片数据分析、挖掘复杂疾病相关基因等方面具有很高的价值。
关键词:基因表达谱 集成决策 递归分类树 特征识别
1: 研究背景
应用DNA芯片技术可以在一次实验中同时检测成千上万个基因的表达谱数据。 这些基因的表达谱数据为生物体
提供一定时空上的生命快照,它映射了生物体在四维空间(时间和三维生物体)某一特定横切面上基因的活动规
律。近年来,尽管基因芯片这一创新生物学技术为我们探索生命的奥秘找到了新的切入点[1, 2], 但发展高效的
基于芯片数据的分析方法和策略仍然是一项极其重要的工作。基因芯片数据挖掘技术涉及的学习算法可划分为无
监督学习和有监督学习两大类:以聚类分析为代表的无监督学习忽略样本的表型特征,直接分析基因表达谱数据,
是功能基因组学研究的一个有效工具,然而,这种方法不能有效地研究基因表达谱的变异与其表型的关系。相比
之下,有监督学习是一个目标引导(驱使)的过程,可采用一个适当的归纳算法,寻找一定目标意义下特征相关
基因。这些目标可能是生物类型分类、疾病亚型的划分;或是疾病相关基因的挖掘;或是研究疾病基因之间的网
络关系,构建目标驱使疾病相关基因网络。目前,大量的工作集中在关于生物类型分类和疾病诊断方面的研究,
__________________________________________
*国家自然科学基金委(项目编号:30170515和30370798),中国863计划(项目编号:2003AA2Z2051和2002AA222052)和哈尔滨医科大学211工程“十
五”计划
**联系人(E-mail: Lixia@ or raos@)
应用在基因组范围内的基因表达谱进行疾病基因挖掘和目标驱使基因网络的构建工作较少。由于基因芯片数据样
应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法
2 生 命 科 学 趋 势 第2卷
本数量少(以十或百计)、特征基因维数高(以千或万计)及芯片数据高信噪比的特点,最佳的芯片数据分析策
略应是通过识别相关基因和排除噪音特征降低特征基因的维数。目前,识别相关基因方法有不同种[3-8],其中
基于决策树的方法对基因芯片等遗传数据分析或更广的领域[9, 10]是最佳的方法之一。其主要原因是决策树可
同时对样本和特征基因进行分析,因而非常适合揭示隐藏的遗传异质性[11, 12], 人类遗传学研究中一个悬而未
决的课题。
在这篇文章中,我们将提出一种新颖的基于决策树的疾病基因挖掘的集成方法,用于生物类型分类和疾病基
因挖掘。首先,我们的目标是识别一个最佳特征基因子集,使得以此集为特征提高生物类型(例如肿瘤与正常组
织)鉴别的准确率,亦称生物类型预测问题。目前,一类主要的对单基因选择方法是过滤(Filter)法,如排秩
(Rank)、信息增益(Information Gain)、马尔可夫毯(Markov Blanket)和边际过滤法等[13-15]。该类过滤方
法独立于最终用于预测的分类方法,因而,不能肯定选入的特征基因是否可以改善最终的生物学分类。另一类特
征基因挖掘的方法是缠绕法(Wrapper)法,以及过滤法与缠绕法的混合(Hybrid)方法等[16, 17]。在缠绕法,
特征基因选择的算法是作为一个围绕归纳算法的缠绕器,归纳算法既用来搜寻有效的特征基因子集,其本身又是
特征基因的评价函数。这种归纳算法可用于基因芯片数据,通常基因芯片数据被人为地分割为内源性学习样本和
外源性检验样本。具有最高评价的特征基因子集被选为最后的集合以创建一个模式分类器。由于通过缠绕器选择
特征基因子集能够与分类器的决策机制很好地吻合,对检验样本的划分可获得最高的准确率。因此,在我们的集
成决策方法中采用了一个基于决策树的缠绕器。第二,在这篇文章中,我们提出的基因挖掘新方法不仅仅是为了
获得最高的分类准确率,我们试图识别与疾病本身有强相关的基因。有些人认为这二个目标是等价,我们将在后
面的实际例子阐明这二个目标本质上的不同。换句话说,用于预测的最佳基因子集未必是映射复杂疾病的复杂遗
传机制的基因功能子集,或者,可以肯定的说这一基因子集不能捕获这一复杂遗传机制的全貌。为挑战这一课题,
我们引进了疾病相关基因的概念并定义评价疾病相关基因的相关性强度(数学描述在后面给出),我们可利用该
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说公务员考试应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法在线全文阅读。
相关推荐: