书城教材教辅医学信息学
48552800000008

第8章 医学信息的管理(4)

3)挖掘操作模块

该模块利用各种数据挖掘算法,针对数据库,数据仓库,数据挖掘库并借助挖掘知识库中的规则、方法、经验和事实数据等,挖掘和发现知识。这一模块是整个数据挖掘系统的核心部分,涉及的算法与技术有关联分析法、判定树回归法、贝叶斯分析法、回归分析法、各种聚类分析法、联机分析处理、文本挖掘技术、多媒体数据挖掘技术等。

4)模式评估模块

该模块对数据挖掘结果进行评估。由于所挖掘出的模式可能有许多,需要将用户的兴趣度与这些模式进行分析对比,评估模式价值,分析不足原因,如果挖掘出的模式与用户兴趣度相差较大,需返回相应的过程(如挖掘前处理或挖掘操作)重新执行。符合用户兴趣度的模式将传输给知识输出模块。

5)知识输出模块

该模块完成对数据挖掘出的模式进行翻译和解释,以人们易于理解的方式提供给真正渴望知识的决策者使用。它是用户与数据挖掘系统交流的桥梁,用户可以通过这个界面与挖掘系统直接交互,制定数据挖掘任务,提供信息,帮助挖掘聚焦,根据数据挖掘的各个步骤结果进行探索式的数据挖掘。

从上述关于数据挖掘系统的讨论来看,它所有功能的完全实现绝非一件简单的事情,正因为如此,目前市场上出现的很多数据挖掘系统并不是严格意义上的这类系统。有些可能是一个机器学习系统,或是一个统计分析工具,或是一个实验性系统原型等。然而如果一个系统仅能执行一些数据或信息检索任务,包括执行一些求和运算或推导型查询问答,也只能被称为信息检索系统或者演绎数据库系统。

2.3.4医学数据挖掘常用技术

医学数据挖掘常用的技术有:决策树、神经网络、关联规则、OLAP 联机规则、粗糙集、传统统计方法等。

1)决策树

决策树(decision tree)是一个类似于流程图的树结构,是一种用来表示人们为了作出某一个决策而进行的一系列判断过程的树形图,这种方法用于表现“在什么条件下会得到什么值”之类的规则。决策树代表着决策集的树形结构,最终结果是一棵树,其中每个内部节点表示在一个属性上的测试,每一个分枝代表一个测试输出,而每个树叶节点代表类或类分布。具体内容参见第12章“决策树”一节。

决策树在医疗卫生领域应用有:疾病诊断治疗,医院信息管理的决策支持,医疗卫生政策分析,卫生资源利用评价,基因与大分子序列的分析……

2)神经网络

人工神经网络(artificial neural network,ANN)是对人脑的某种程度上的抽象、简化和模仿。人工神经网络是由人工神经元相互连接组成的。每个神经元(或处理单元)是一个节点,节点间通过方向性连接组成网络结构。因此人工神经网络是一个数学模型,能用计算机来模拟人脑对信息进行处理。

在结构上,神经网络可以分为输入层(Input Layer)、隐含层(Hidden Layer)和输出层(Output Layer),每一层可以包含若干个节点(神经元),层与层之间的节点互相联系,输入层只从外部环境接收信息,输入层不完成任何计算,它为下层传递信息。输出层生成最终结果,是网络发送给外部系统的,它的每一个神经元对应于一个响应变量。在一个神经网络中通常有两个或多个响应变量。在输入层和输出层之间,可能有一层或多层中间层,称为隐含层,因为它们不直接接触外部环境,对神经网络使用者来说不可见。隐含层完全用于分析,它们用函数联系输入层变量和输出层变量,使它能够更适应数据。隐含层的层数和每层节点的个数决定了神经网络的复杂度。

(1)人工神经网络的工作原理。建立一个成功的ANN需要对网络进行训练,也就是让网络从外界(输入端)接收信息,内部的权值随着训练过程的进行不断的调整,以求使结果达到最优,即使输出结果同实际情况的差异最小。这一过程所遵循的准则是通过学习使网络减少在下一次训练中犯同样的错误的可能性。现今有多种类型的神经网络,如BP(Back‐Propagation)神经网络,Kohonen 神经网络,Hopfield 神经网络等数十种。由于各种具体的网络具有不同的特征,因此其工作方法也不相同,如医学中应用比较广泛的BP神经网络,也就是误差反向传播网络,其特点是在训练过程中将输出值同实际值的差异(误差)不断地反传给网络,调整各层之间的权重大小,以求使理论值与实际值的误差最小。此外还有感知器模型,主要用于一些医学的分类问题的研究。

(2)人工神经网络在医学中的应用。人工神经网络应用于临床诊断:在临床工作中医生大多是凭借一些临床资料(如患者症状,体征及各种检查结果),结合临床经验得出结论,而ANN在这一方面有较强的优势,它能够通过大量样本的学习最终获得诊断疾病的能力。第12章有许多经典案例。

人工神经网络应用于预后研究:临床医生往往根据某一个或几个预后因素估计患者的生存时间或预后,甚至凭经验来预测。ANN可以用来处理多因素资料甚至是因素和结果关系不甚明确的资料。Santos‐Garcla 等根据1994-1999年间因非小细胞肺癌而行肺切除的384份病例资料建立了一个预测手术后死亡的模型,再利用该网络对2000年2月至2001年12月间141例手术后的非小细胞肺癌患者作分析计算手术后的病死率,该模型对病死率预测的准确性可以达到98%。可以认为ANN较传统的统计学方法可以作出更加准确的预测。

人工神经网络应用于临床决策分析:ANN是一种非常有潜力的临床决策支持系统工具。ANN能够为每个患者“量体裁衣”地给出一个特定的预测值。

人工神经网络应用于医学信号分析处理:由于神经网络可以把专家知识结合进一个数学框架来完成提取特征和分类、识别等功能,而不需要任何对数据和噪声的先验统计假设,也不需要把专家知识和经验归纳成严密清晰的条文,因而在模式识别方面具有显着的优越性,被广泛应用于医学信号(如心电,脑电,肌电等)的分析和处理中,ANN对心电图的识别最为有效。应用神经网络识别心电信号大体有两种作法。一种是将整个心电波形输入到网络中去,经过样本学习,由网络进行识别。如Johns Hopkins大学的S.C.Lee就是采用二阶神经网络将整个心电信号直接输入的方法对正常心电,室性心动过速和室颤动心电信号进行识别诊断,经过54例患者的训练,对正常心电图和室性心动过速的诊断很成功,准确率几乎100%。另一种是先从心电波形中抽取特征量,再将这些特征量输入到网络中去进行识别。

ANN由于其可以对线性或非线性多变量在不设前提条件的情况下进行统计分析,同传统的统计方法需要被分析的变量符合一定的条件相比有其自身的优点。一个良好的ANN甚至在资料不太完整或有偏差的情况下也可以作出正确的预测。尽管ANN有诸多优点,但它目前仍不像传统的统计方法为人们所熟知和应用,随着ANN研究的深入,ANN必将得到临床工作者的认同和肯定,并为临床工作带来诸多便利。