指标有效地区分完全相关基因、部分相关基因以及无关基因,在实际的基因芯片数据分析中(包含有成千上万个
基因的表达数据),大多数基因是与目标无关的,同时由于生物系统的复杂性,完全相关的基因亦是极少的,基
因挖掘的主要目的就是要寻找到这些完全相关或部分相关的基因。由于基因芯片具有高度的基因冗余性,以获得
最高分类准确率为目标的特征基因识别势必会造成大量的部分相关基因被排除,为克服这一缺点,我们提出新颖
的集成方法处理这些冗余的基因。我们将机器学习领域集成决策理论[18]整合到决策树中,在这种方法中,我们
通过重复取样技术产生训练集,由此创建大量的特征基因子集。然后根据每个基因在特征基因子集群中的分布,
以一个关联强度指标进行评价。尽管集成(Ensemble)决策理论对提高分类准确率取得了较大的进展,受到了普遍
关注,而应用集成决策技术进行特征基因挖掘还未见报道。
2: 方法
2.1 定义
假设某一微阵列实验,点有p个基因探针的DNA芯片检测n个DNA样品(样本)的表达谱数据可由n×p矩阵
X=(xij)[1, 2]表示,其中xij可代表第j个基因(gj) (属性变量) 在第i个样品(Xi) (观察个体)的表达水平。当
DNA样品属于已知类别时,每一个样品观察值数据由基因表达谱Xi=(xi1,Λxip)和类标签(yi)组成。假设DNA样
品属于K个类别ω1,ω2,L,ωK,对于K个类别,定义类标签yi为从1到K的整数,以nk表示第k(k=1,2,L,K)类
观察数。我们分别给出对疾病有鉴别意义的优化特征基因子集和疾病相关基因的概念:
定义1 给定一算法 I, 和具有p个基因{gj}, j =1, 2, …, p的表达谱微阵列数据集D, 来自离散表型空间
{ω1,ω2,L,ωK}的多元分布总体,若基于基因子集G′,微阵列样本的划分C=I(D)与观察表型分布有最好的拟合
(在特定的统计学意义下),即具有最小错分率,称G′是对疾病有鉴别意义的最优基因子集G′。
定义2 给定一个特征基因gj,若这个基因被包含在所有由DNA表达谱微阵列数据训练集归纳的分类器中,如将
它从任意一个分类器中剔除,将导致该分类器对疾病表型划分错分率增加,称gj是与疾病完全相关的;若特征
基因gj不是与疾病完全相关的和至少存在一个这样的特征基因子集G,依据G建立的划分的错分率高于依据
应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法
第1期 李 霞等:应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法 3 GUgi建立的划分的错分率,称gj是与疾病部分相关的;若gj既不是完全相关亦不是部分相关的,称gj是与疾
病无关的。
2.2 特征基因挖掘的集成决策方法
提出的集成特征基因挖掘方法是基于递归分类树的有监督学习方法. 基本思路是首先采用某种抽样策略(见下
文),由样本集构建不同分布结构的训练集{Ld}(d=1,2,Λ,m)和检验集{Td}(d=1,2,Λ,m),基于训练集
Ld(d=1,2,Lm)由递归分类算法生长二叉树,在树的每一分叉结点以类纯度指标最大与分类错误率最小为目标引
导识别最好的特征基因。这种二叉递归反复进行直至树增长停止。对每一增长的树,识别一特征基因子集Gd = {gd1dd,g2,Λ,gk},并由检验集Td进行检验。对每一对学习样本 {Ld}(d=1,2,Λ,m) 和 试验样本
{Td}(d=1,2,Λ,m)重复这一特征基因识别过程,得到一系列集成特征基因子集G1,Λ,Gd,Λ,Gm。按基于{Gd}建
立分类器的效能(在检验集上分类错误率)进行排秩,识别分类错误率最小的、具有分类学意义,即满足定义1
的最佳基因子集G′。由定义2,根据某一基因在分类效能达到特定显著水平的特征基因子集群中的分布,由与疾
病相关的程度识别疾病相关基因集G*。
2.2.1 构建训练集和检验集 构建训练集和检验集有许多方法,这里我们只介绍三种方法。最直接的方法是
Bagging[10] (Bootstrap aggregation的缩写),以原训练集为母版,在原样本集上采用有放回抽样,每次随机
抽取与原训练集等同大小的集合,称这种集合为原训练集的副本,由该副本作为训练集,余下的样本作为检验集。
由Bagging方法产生的训练集的特点是有的微阵列样本可能重复出现许多次,有的可能根本不出现;另一种构建
训练集的方法是n-倍(fold)交叉证实的方法[10],我们可随机将样本集分为近似的n等份,选取每一份作为检
验集,余下的n-1份作为训练集,循环n次,这种方法产生不相重叠的训练集和检验集;第三种方法采用无放回
随机抽样,每次抽取样本集的1/n作为检验集,余下的样本集作为训练集。
2.2.2. 特征识别算法 按照一种训练集的构建策略,将样本集划分为训练集(Ld)和检验集(Td)。在每对训练集
(Ld)和试验集(Td)上,我们创建和检验一个递归决策树[19, 20]。决策树是一个多级决策过程,在每一阶段需做
一次二叉划分。决策树由结点和分支构成,结点又分为内部结点和叶子(leaf)结点。内部结点可分划(产生)为
两个子结点,而叶子结点不产生任何子结点。对每一叶子结点赋给一个与其关联的类标签,落入该叶子结点的观
察样本被指定为属于相应的类别。为寻求一个最能改善分类正确率的特征属性基因子集,从包括所有训练集(Ld)
的根结点开始,在树的每个结点上对特征空间做一次穷尽搜索,寻找一个特征属性基因和相应的阈值(cutoff),
实施分叉,使得由此准则划分样本类别的杂质度最小。即在确定了一个最佳分叉后,根据每个样本个体Xi的属性
gj>cutoff或gj≤cutoff时,微阵列样本集相应地划分成左右两个不交叠的子集,称这些子集为源于父结点的
两个子结点。然后,再在这两上子结点上,实施同样的特征空间穷尽搜索和子结点划分。这一过程反复进行,直
至叶子结点或满足树增长停止规则。属性和相应阈值的识别准则是使得在一个结点的划分最大程度地降低类别杂
质度(寻找一种划分最大地减少在结点t的杂质度),我们采用Gini差异性指标(代价函数)为结点t的杂质函数:
E(t)=φ(P(ω1t),P(ω2t),L,P(ωKt))
=∑P(ωkt)P(ωlt)=1 ∑P2(ωkt).
k≠lk=1K (1) K通常P(ωkt)=pk=nk/n(k=1,2,L,K). 参量pk表示结点t中某一样品属于第k类的概率(频率),∑k=1pk=1。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说公务员考试应用DNA 芯片数据挖掘复杂疾病相关基因的集成决策方法(2)在线全文阅读。
相关推荐: