栏目搜索
 
 
 
 
 

基于人工神经网络的肺癌诊断研究

作者:不详  来源:不详  发布人:admin  发布时间:2005-10-16 1:35:03

  肺癌诊断问题各国医界已作了一些研究,并取得了某些实际成果。但是,由于肺癌多种类型以及多种相关因素,使得现有诊断在准确性和实用性方面都存在着相当局限性,建模复杂困难。由于对影响罹病与否各种因子作用机制了解得不是很清楚,何建立诊断模型,以及何确定新建立模型在何种程度上与实际情况相吻合还是一个问题;容错能力不强,适用范围不广;依赖于某个病例库新建立起来模型往往具有很强局限性,用于新病例库时误差有时较。另外,由于医方面原因,们收集到数据有时不完整,而现有研究方法所建立起模型由于容错性差,对这些不完整数据通常都难以处理。以非线性规模并行分布处理为特点人工神经络理论突破了传统线性处理模式,以其高度并行性,良容错性和自适应能力成为人们研究其赖以生存非线性世界,探索和研究某些复杂系统有力工具。

原理与方法

  神经络是一个具有高度非线性规模连续时间动力系统。是由处理单元(神经元)广泛互连而形成络。它是在现代神经科研究成果基础上提出,反映了脑功能基本特征。但它并不是人脑真实描写,而只是它某种抽象、简化与模拟。信息处理由神经元之间相互作用来实现;知识与信息存储表现为络元件互连间分布式物理联系;习和计算决定于各神经元连接权系动态演化过程。因此神经元构成了基本运算单元。每个神经元具有自己阈值。每个神经元输入信号是所有与其相连神经元输出信号和加权后和。而输出信号是其净输入信号非线性函数。果输入信号加权集合高于其阈值,该神经元便被激活而输出相应值。在人工神经络中所存储是单元之间连接加权值阵列。
  神经工作过程主由两个阶段组成,一个阶段是工作期,此时各连接权值固定,计算单元状态变化,以求达到稳定状态。另一阶段是习期(自适应期,或设计期),此时各计算单元状态不变,各连接权值可修改(通过习样本或其他方法),前一阶段较快,各单元状态亦称短期记忆(STM),后一阶段慢多,权及连接方式亦称长期记忆(LTM)〔1〕。
  根据拓扑结构和习规则可将人工神经络分为多种类型,不含反馈前向神经络、层内有相互结合前向络、反馈络、相互结合型络等〔2〕。本文人工神经络模型是采用BP算法多层前馈络。

  该模型特点是信号由输入层单向传递到输出层,同一层神经元之间互不传递信息,每个神经元与邻近层所有神经元相连,连接权用Wij表示。各神经元作用函数为Sigmoid函数,设神经络输入层p个节点,输出层有q个节点,k-1层任意节点用l表示,k层任意节点用j表示,k+1层任意节点用l表示。Wij为k-1层第i个神经元与k层第j个神经元相连接权值。k-1层节点i输出为O(k-1)i,k层节点j输出为:

k层节点j输出为:

Okj=f(netkj)

  设训练样本为(X,Ye),X为p维向量,加到输入层;Ye为q维向量,对应于期望输出;实际输出Y也是q维向量。络在接受样本对训练过程中,采用BP算法,其权值调整量为:

ΔWij=-ηδkjO(k-1)i

其中,对于输出层为:

δkj=yj(1-yj)(yej-yj)

对于非输出层为:

η为训练步长,取0<η<1。
  用样本集合反复训练络,并不断修改权值,直到使实际输出向量达到求,训练过程结束〔3〕。
  上述人工神经络可以完成多种信息处理任务,从二进制数据中提取相关知识,完成最近邻模式分类,实现数据聚集等。而本文是其极强逼近映射能力,即开发合适函数f:ARn→BRn,以自组织方式响应以下样本集合:(x1,y1),(x2,y2)…,(xm,ym),其中yi=f(xi)。这描述是一般抽象,像识别与分类这些计算都可以抽象为这样一种近似数映射。
  所谓诊断,实质上是一个分类问题。即根据候诊者症状,医检查结果(体温、心跳等)等一些情况,它们可以用一向量(e1,e2,…,em)来表示,将其归类为病人或非病人。这也可以转化为寻找一差别函数f使得:
  (1)f(e1,e2,…,em)>ε, (e1,e2,…,em)∈T
  (2)f(e1,e2,…,em)>ε, (e1,e2,…,em)T
  其中集合T表示患病。
  因此,病情诊断最终也可作为一类函数逼近问题。
  而许多研究已表明,前向神经络可作为非线性逼近标准型。对于实数空间任一函数,只它满足一定条件,一定存在唯一具有单一隐层前向络作为它最优最佳逼近。而含有两个隐含层前向络可在任意平方误差内逼近某一实函数〔3〕。

诊断步骤

  肺癌病例数据选自1981~1994年在某医院住院病人,共计551例。其中486例(88%)经病理、细胞诊断证实为肺癌。每一病例都包括多项数据,其中用于诊断数据项有:病人一般情况(年龄、性别等),家族史、既往史、吸烟史、术后病理、X射线检查、CT检查、纤维支气管镜检查、PAT痰检等多达58项。因此,原则上 58项数据应作为神经输入项,而神经输出值就是病人是否患肺癌结果。
  1.络训练集确定:在最原始551例病人数据中存在着各种各样差别,性别差异(419例男性,132例女性),诊断结果差异(486例经证实为肺癌),所患肺癌种类差异(鳞癌、小细胞癌、细胞癌等),患病程度上差异(早、中晚期不同)等等。显然,训练数据集应最限度地保证兼顾各种病例情况。经过仔细筛选,选择了含有460个病例集合作为肺癌诊断用训练集。
  2.神经络输入和输出数据预处理
  按照人工神经理论,神经输入输出数据都应该属于(0,1)区间实数,为此们需对原始数据进行规一化处理:

其中xi为原始数据项,而Max=max{xi∶xi∈X},Min=min{xi∶xi∈X}。这X为原始数据集。经过(7)式变换后,yi将在(0,1)区间。因此,可作为神经输入输出。
  3.应用神经络进行肺癌诊断
  将描述病人各种情况数据作为前向输入数据加到其输入端,并按(1)~(6)式计算各神经元输入和输出,同时调整神经元之间连接权值以使输出和实际病例情况相符。即当病人确实患肺癌时输出结果也恰指示为肺癌,反之亦然。果对所有训练样本集输出基本上(95%或更高)能保证与实际结果一致,则训练过程结束。们认为神经络已建立起病人各种因素与他是否是肺癌患者之间函数映射关系。对于一个新候诊病人来说,只将他情况输入到训练神经络中去,根据输出结果就可以知道他是否已患肺癌。

表1 基于不同发病因素诊断络模型
类  型  训练集精度  测试集精度 
基于遗传因素诊断  53.8%  46.3% 
基于个人生活习惯诊断  57.1%  44.9% 
基于病症诊断  89.4%  83.3% 
基于医检查结果诊断  98.5%  92.6%

    上述结果表明不同类型因素应分开来考虑。于是们将58项输入数据分成四类,这四类有各自BP诊断,依次称为诊断一、诊断二、诊断三、诊断四。它们先单独测定,然后再将它们各自结果综合起来得出最后判断。
  上述四种诊断络所得结果可靠性各不相同。其中,根据医检查结果所作诊断准确性最高,因此在最后综合分析中重点考虑它诊断结果,们给它设一个相对最高权值。其次,根据病人症状所作诊断往往也具有较高准确性,因此给它权值也较高,但比医检查结果稍低。其他两类因素在有关肺癌诊断中仅具参考作用,因而所设权值相对较小。
  最后结果O为:
O=a1.O1+a2.O2+a3.O3+a4.O4
a1+a2+a3+a4=1

  其中Oi,ai,i=1,2,3,4分别为各诊断输出及其对应权值。
  当O>0.5时最后诊断结果为患肺癌,反之则正常。对所有病例数据经上述方法诊断结果见表2。
表2 神经络对肺癌诊断结果分析


神经
诊断结果  训练数据  测试数据 
肺癌患者  非肺癌患者  肺癌患者  非肺癌患者 
+  460  2  25  3 
-  0  38  1  22


    其中对于训练集,肺癌病人正确检出率为100%,非肺癌病人误诊率为5%。对于测试集,肺癌病人正确检出率为96.2%;非肺癌患者正确检出率为88%,误诊率为12%。
讨 论

  1.本研究所采用人工神经肺癌诊断方法结果较地符合了已知数据,具有较高准确性,特别是对于肺癌患者一般都能准确地做出诊断,有利于肺癌早期发现和治疗。
  2.想进一步提高该方法准确性,应该注意收集更多更全面病例数据。人工神经络主是利用它能自动从数据集中抽取函数关系功能。们所使用数据越多越全面,则其中所蕴含事物本身规律性就越强,利用人工神经络从中所抽取函数关系就越具有普遍性,因而就更准确。
  3.实现对肺癌诊断关键在于准确找到罹患肺癌判定函数,可利用前向函数逼近功能来实现。但是这涉及到两个问题。首先,由于差别函数和预测率函数都是利用人工神经络从已知病例数据集中抽取出来,它实际反映是这些数据集中输入输出对映射关系。因此想保证诊断具有较高准确性,就应该使用来建立函数关系这些数据集(称训练集)具有充分代表性,即这些数据应基本蕴含肺癌诊断原理。这就涉及到何选择络合理训练集及关键输入项。另一个问题涉及到神经络本身求,即输入输出数据值都应在区间(0,1)中。这可以通过数据编码和归一化来实现。
  4.由于某些原因有些病人病例数据不完整,约占总病例数据10%左右。显然,果按照传统方法来建立肺癌病人诊断模型〔4〕,这些有缺项数据是不太处理,但是由于人工神经络有较强容错性,输入数据在某些项上错误对络最终结果正确性影响不

参考文献

  1.焦李成.神经络系统理论.第1版.西安:西安电子科技出版社,1995,3
  2.Wang Zhenni,Tham Ming T,Morris A.Multilayer Feedforward Neural Networks:A Canonical form Approximation of Nonlinearity,Int J.Control,1992,56(3):655~672.
  3.庄镇泉,等.神经络与神经计算机.北京:科出版社,1992.
  4.郭海强,等.肺癌诊断模型研究.中国卫生统计,1997,14(5):11

 
 
  信息栏
 
 
 
  栏目导航
 
 
 
  相关文章