【摘要】历代中医医案对中医理论的不断发展起着重要作用,而海量的医案数据远远
超出了人的理解能力。从信息科学角度来看,中医医案数据是混乱而又复杂的经验数据。
这导致了医案研究的困难,亟需新技术和新方法的引进,知识发现技术方法可能就是一种
重要而有效的方法。本文简要介绍了中医医案中的知识发现技术方法,并提出具体研究思
路,以期有助于实现医案研究技术创新。
【关键词】中医;医案;知识;技术;数据
中医医案是中医临床医师实施辨证论治过程的文字记录,是保存、查核、考评乃至研
究具体诊疗活动的档案资料[1]。在中医药学领域中,自古至今,从散在于各种史料中
记录的医案雏形,到医案专著,医案一直伴随着中医药学的发展。随着医案记录的不断涌
现,医案分析研究也层出不穷,在中医理论的形成发展传承过程中一直充满活力,是中医
理论不断发展的摇篮。随着新技术、新方法不断引入中医药研究领域,应用现代科学技术
方法对中医医案进行研究已经提上日程。
1 中医医案的特征与新技术新方法的引进
中医医案是中医理、法、方、药综合运用的具体反映形式,它不仅是医疗活动的真实
记述,而且还反映了医家的临床经验及思维活动。由于医家所处时代不同,个人经历、学
识、爱好和修养等各异,因此历代医案的数量、形式、体裁、风格和内容等亦在不断变化
中。我国早在 2000 多年前,名医淳于意就首先注意医案(诊籍)的记载。但秦汉以降,
医家崇尚方书,此后直至隋唐五代,医案才逐渐散见于医籍和文史书中,数量少且内容简;
宋金元时期医案专著开始出现,医籍附案逐渐增多,医家立案蔚然成风,医案风格异彩纷
呈。医案发展至明代,开始有名医医案的专著出版,如江灌的《名医类案》。此期在医案
数量增加的同时,质量也有了明显提高,主要表现为内容完整、客观;格式多样、规范;
说理透彻、详明;文笔秀美、流畅[2]。明末清初医家喻嘉言在《寓意草》中撰“与门人“与门人
定议病式”,在韩懋和吴昆等人的基础上,对撰“与门人写医案的内容与格式提出了更高的要求,即
态度应严肃认真,内容应详尽,理法方药应齐备。而张山雷在撰“与门人写风格上,或继承明清两
代的特点,或对传统医案加以变革,采用中西汇通的观点叙述医案。随着时代的不断进步,
医案的数量也呈“爆炸式”增长。如隋唐五代前千百年的医案,数量少且内容简;而仅在清
代,医家撰“与门人写的医案专著就达 200 余种,而且门类齐全,风格多样,既有个人医案、医案
类书、医案丛书,又有专科医案、专题医案、会诊医案、医案评注及宫廷医案等;近十年
公开出版的名老中医医案有近百种之多,每种收录医案数百则到千余则不等。古今医案内
容也发生了很大变化[3],向应用中医基本理论研究现代医学疾病的方向发展,注重记
载现代医学已诊断明确的病名。常见的记载方式为中西医诊断并列,以利互参。医案记载
实验室等客观检查的内容逐日增多,针对检查结果的辨治内容如“微观辨证”等随之出现。
现代医案中处方用药的内容变化也较明显,医者不仅根据中医药理论选方用药,而且根据
现代医学病理生理和中药药理进展来选方用药,医案中合用西药的现象越来越多。即便现
代医案也存在着记载缺杂混乱、现代医学成分过多、文词晦涩、夸张不实等诸多问题
[4]。从以上分析可知,从信息科学角度来看,中医医案数据将是混乱又复杂的经验数
据。这些导致了中医医案研究的困难。随着科学技术的飞速发展,医学领域分工日益细化,
跨专业的沟通变得更加困难,而某个专业领域的信息,可能对相关专业领域是有价值的,
它们之间存在着某种隐含的有价值的关联,而以常规方式通常检索不到这种关联性。中医
医案不仅涉及到临床内、外、妇、儿各科,还包含了中医学中的哲学基础、中医对正常人
体和疾病的认识,以及中医食疗、养生和诊疗疾病的原则等方方面面,如何对其中隐含的
知识进行解析与发现,必将是今后研究的热点与难点。而且中医药学科内仍然有大量的问
题,甚至是一些基本性的问题得不到合理的、科学的解释,研究的空白比比皆是,这些都
可能通过中医医案研究得到解决或启示。但以个人之力实难发现其中蕴含的有价值信息,
而且以人工逐字研读名老中医医案,容易产生遗漏,来回翻页又很繁琐。要完成普通人不
能完成的任务,这就需要有新技术新方法的引进,知识发现技术方法可能就是这样一种重
要而有效的方法。
2 知识发现方法及其在中医医案研究中的应用
知识发现是指从数据集中识别出有效的、新颖的、潜在有用的,以及最终可被理解的
模式的非一般的过程[5,6]。知识发现是多学科交叉的新兴边缘学科。近年来,随着数据
获取和数据存储技术的快速发展,各种数据库、数据集和数据仓库中存储的数据量飞速增
长。如何从这些海量数据中提取出有用的知识呢?数据库中的知识发现
(knowledgediscoveryindatabase,KDD)的出现为人们提供了一条解决这种“数据丰富而
知识贫乏”困境的有效途径。当前国际上,知识发现的研究主要是以知识发现的任务描述、”困境的有效途径。当前国际上,知识发现的研究主要是以知识发现的任务描述、
知识评价与知识表示为主线,以有效的知识发现算法为中心。知识发现过程一般由三个主
要的阶段组成:数据准备、数据挖掘、结果表达和解释。知识的发现可以描述为这三个阶
段的反复过程。中医医案中的知识发现也不例外。
2.1 数据准备要有效地利用 KDD 进行中医医案知识发现,首先必须进行数据准备工作。
目前,在“中文科技期刊数据库(引文版)”、“中国期刊全文数据库”等数据库中,以发表论
文的形式实现了部分现代医案的数据准备工作。此外仅少数专题性质的数据库收录了一些
古今医案。再加上散见于古今医籍和文史书中的医案,中医医案的数据准备工作将是一个
庞大的系统工程。中医医案的数据准备中具体要解决的是:设定并明确中医医案知识发现
的目标;对中医医案数据加以充分理解;对相关的中医医案数据进行必要的预处理,使其
符合 KDD 算法的要求;选用合适的 KDD 方法进行数据建模。其中中医医案中的知识发现
的目标,可以从指导中医临床应用角度,对医案内容加以分析归纳研究,如对医者临证思
维的阐释,对各医家、流派学术思想的探讨,各专科、专病、专症理法方药运用特点的归
纳,以供临证学习参照,并可建立智能诊疗系统。也可以就其中蕴含的中医医理、药理进
行研究,寻求中医药基础理论的新突破、中药新药的勘探等。
2.2 中医医案中的知识发现可能运用的主要技术
2.2.1 统计方法从历史上看,统计工作主要集中在测试预先的假说以及使模型适合于数
据等。研究上,统计方法通常依赖于一个明确的潜在概率模型。此外,人们假定这些方法
是由统计学家来使用的;为了生成候选假说和模型,人的干预是必要的。目前已有中医医
案论文中用了频数统计的这种最粗浅的医学统计方法来进行研究,通过这种计量的研究使
得结论更有说服力。如姜良铎[7]在董建华的指导下,运用统计学原理对古今 700 多医
家 10009 则温病医案进行分析,从而总结出温病诊断指标及证治方药规律。
2.2.2 聚类分析又称集群分析,是指利用物以类聚的原理,把大量无序的数据分成数类,
有助于对大量数据中的规则予以认识,它是一种数理统计方法,可将一些观察对象依据某
些特征加以归类,在生物学和医学分类问题中有着广泛的应用。在中医医案研究中,聚类
分析能较好地避免分类过程中掺杂的主观因素,能客观地准确地反映研究对象,并从中可
能发现其内在的客观规律[8]。如周德生[9]统计了明清时期 26 部现存医案中的津液
亏损病案 573 例,采用 R 型系统聚类分析方法,得出津液亏损中每个亚型的几个主要用药,
并揭示了明清时期津液理论的某些特征。
2.2.3 人工神经网络人工神经网络是指模拟人脑工作机制的一种计算模型,它是由非处
理单元组成的非线性大规模自适应系统,以类似于人脑神经网络的并行处理结构进行信息
的高级处理。由于它具有自适应性、并行处理能力和非线性处理的优点,所以在医学领域
被广泛应用[10]。目前已有学者利用人工神经网络原理实现对病案的分析,用病症分类
神经网络来说明知识自动获取方法的实现。它应用人工神经网络的反向传播算法
(backpropagationalgorithm,BP),通过研究中医医案,形成专家知识,对 BP 网络进行
训练,从而使网络获得一定的学习能力,将训练所“学习”而来的“知识”运用到新的病症判断
中,从而实现对新知识的获取[11]。其虽然只是举了一个例子,但引进了医案分析的新
方法。
2.2.4 决策树该树的每个非终端点均表示被考察数据项目的一个测试或决策,根据测试
结果选择某个分支。为了分类一个特定数据项目,从报结点开始,一直向下判定,直到到
达一个终端结点(或叶子)时为止。当到达一个终端结点时,一个决策便形成了。决策树
也可解释成一种特殊形式的规则集,其特征是规则的层次组织关系。前已述及,中医医案
数据是混乱又复杂的经验数据。而处理大量混乱而复杂的经验数据的一个很好的方法是决
策树分类技术。利用知识发现中的决策树方法来对这些数据分析,可以为医生提供极具价
值的知识,从而对临床医疗方案进行优化。目前已有研究者从医院病案室保存的冠状动脉
粥样硬化性心脏病(简称冠心病)病案中选取了一些数据作为挖掘的原始数据集,进行了
基于决策树的医疗数据分析,得到了良好的效果[12]。同样,我们也可以进行基于决策
树的中医医案数据分析,从而优化传统的中医医疗方案。
2.2.5 模糊集与粗糙集模糊集是一种表达和处理不确定性的重要方法。不确定性以多种
形式发生在今天的数据库模型中,如不精确、不完全、不典型、不一致、含糊,等等。模
糊集利用不确定性使系统的复杂性变得可处理。当精确输入不可能或太昂贵时,模糊系统
就是一种强有力的模型方法。粗糙集合理论中的模糊性就是一种基于边界的概念,即一个
不精确的概念具有模糊的不可被明确划分的边界。粗糙集用一个集合的上下界来定义,下
界中的每个成员都是这个集合的成员,而上界的每个非成员也一定是这个集合的非成员。
粗糙集中的上界是下界和边界区域的并集。边界区域的成员可能(但是不能肯定)是这个
集合中的成员。因此,粗糙集可以被看成是一个有三级成员函数(是,否,可能)的模糊
集。象模糊集那样,粗糙集是处理数据不确定性的一种数学概念。与模糊集类似,粗糙集
很少单独使用,而通常是与规则推导、分类、聚类等其他方法一起组合使用。已有学者基
于奇异粗集及其元素迁移,研究其在中医药辨证诊治过程和中药方加减中的应用,设计一
个基于双向 S粗集的中医药辨证诊治知识支持系统,为人工智能技术在中医药诊治领域中
的应用开辟了一个新的思路[13]。我们也可以采用类似方法研究中医医案中蕴含的各医
家辨证诊治思维过程,从而把中医药研究引向深入。
2.3 结果表述和解释是指根据最终用户的决策目的,对提取的信息进行分析,把最有
价值的信息区分出来,并且通过决策支持工具交给决策者。在中医医案研究中,根据设定
的中医医案知识发现的目标,例如关于疾病的诊断治法遣方用药的分析,对相关信息进行
相应分析处理,由特定知识发现工具来实现。但结果仍需终端用户来判定是否符合中医药
基本理论或者通过临床科研实践来进行验证。
3 非相关文献知识发现法及其在中医医案研究中的应用
3.1 非相关文献知识发现法概述随着科学技术的高度发展,学科的分化越来越细,学
科间交流越来越困难,知识总量与人类吸收能力之间的矛盾日益突出。一个专业领域的信
息可能对另一个专业领域是有价值的,跨学科间一定存在着潜在的未被发现的关联。这就
是所谓“知识分裂理论”[“知识分裂理论”[14]。在大量分裂的知识或科学文献之间存在着千丝万缕的联系,
这些联系既包括我们通过常规组配检索可得到的显性的联系(或知识),也包括那些常规
检索得不到的隐性的联系(或知识)。1985 年 Swanson 偶然发现,两篇医学文献放在一
起会揭示出某一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学
文献中存在着大量的未被发现的隐含的关联。Swanson 认为,将两类非直接相关的文献结
合在一起分析,会形成一种新的知识,而这种新的知识是通过单独分析两类文献中的任何
一类而得不到的。这就是他的非相关文献的知识发现思想[15,16]。在大量的文献中,一
些文献可能相互引用,文献间存在着人们可利用数据库检索到的显性联系;有些文献互不
引用或很少被共同引用,则称这两类文献是相互独立的,也就是非相关的。一些非相关文
献通过各自提出的观点联系在一起,形成逻辑关联。这种联系通过常规的数据库检索是检
不到的,是未被发现的隐密的联系,是新知识的源泉,可能对科研的发展具有重大意义
[17]。常规的联机医学文献分析检索系统(MEDLINE)检索方式是通过给定的题目检
索已发表的文献。为了扩展 MEDLINE 检索功能,克服其局限性,Swanson 设计了一个人
机交互的软件系统,并制定了相应的数据库检索策略,称为 Arrowsmith,用于分析研究非
相关的互补文献,更加易于在两组生物医学文献间发现互补性结构[18]。在 Swanson
的研究方法的基础上,很多研究人员对基于非相关文献的知识发现方法进行了改进。
Gordon 和 Lindsay 改进了 Swanson 的基于单词的词频统计方法,利用基于短语的词频统
计方法,引入了四个参数来获得短语的最终词频,验证了雷诺病(Raynaud),鱼油
(fishoil)之间的关联[19,20]。Weeber 等[21]利用一体化医学语言系统
(UnifiedMedicalLanguageSystem,UMLS)的语义类型实现了自然语言与 UMLS 概念的
映射。这种语义筛选的机制能够产生概念的聚类,尤其是中间集合的概念的聚类。
Srinivasan[22]将 Weeber 的语义分析方法和 Gordon 的词频统计方法结合起来提出基于
概念的词频统计方法,将自然语言通过医学主题词表(medicalsubjectheadings,MeSH)
与 UMLS 的语义类型联系起来,并利用 Gordon 的统计参数,计算概念之间的相关性。
3.2 非相关文献知识发现法及其在中医医案研究中的应用由于中医医案是中医临床医
师实施辨证论治过程的文字记录,相互之间几乎互不引用,两篇中医医案相互独立,也就
是非相关的,这符合非相关文献的定义。但是其中蕴含的医理可能是一致的,这为非相关
文献知识发现法在中医医案研究中的应用提供了基础。Arrowsmith 系统是实现非相关文献
知识发现的软件工具,其主要功能是:从两类非相关文献数据库记录的标题、主题词及文
摘当中,提取自然语言并加以分析排列,找到能表达两类非相关文献间关联性的概念、词
语等,供研究人员参考。我们完全可以借鉴和参照 Arrowsmith 系统,结合相关技术研究最
新进展,研制可处理中医医案的软件系统。有研究者[23]提出了非相关文献知识发现法
在中医研究中的应用需要依赖的几项关键技术。非相关文献知识发现软件系统本身并不复
杂,但是实现在中医医案研究中的应用同样需要依赖几项关键技术。
3.2.1 中医医案数据库的建立面对浩若烟海的中医医案文献,面对因时代变迁而造成众
多歧义的中医药概念及词汇,中医医案数据库的建立是需要首先解决的问题。中医医案一
般没有标题、主题词及摘要,甚至某些中医医案本身就带有摘要性质。同时中医医案形式、
体裁、风格、内容的多样性也使中医医案数据库的建立成为困难。我们可以采用先易后难
的策略,先从较规范的现代医家医案入手,最终建立中医医案数据库。
3.2.2 中医药学中文文本自动分词和词性标注系统研制实施中医药古文献的自动切分与
标注,需要一个高性能的切分标注软件。近年来,中文自动分词技术,无论是自动分词的
算法方面,还是词表的研制方面,都取得较大进展,技术已经日益成熟。将这些技术应用
于中医医案研究当中还需要做一些软件实现或集成的工作。但同时,中医疾病病名、药名、
度量衡混乱,亟需稳定化、标准化[24],中医理论术语的模糊性等,也是软件设计中要
解决的问题。
3.2.3 停用词表研制因为中医语言的多义性与模糊性,有一些无意义的语词,或者是在
特定研究领域内无意义的语词,应该列入停用词表,在抽词的过程加以删除,降低运算的
复杂程度,提高结果的准确性。但停用词与停用范围的确定本身也是个要解决的问题。
4 结语
章太炎先生指出:“中医之成绩,医案最著。欲求前人之经验心得,医案最有线索可寻,
循此钻研,事半功倍。”要挖掘中医宝库,就要总结前人经验,研究其学术思想;要提高临
床疗效,要升华形成新的理论,以推动中医药学科的整体发展。因此,有必要认真研究中
医医案。我们有理由相信,随着知识发现技术方法在中医医案研究中的应用,中医药学一
定有着更广阔的未来。
温馨提示:当前文档最多只能预览 2 页,此文档共5 页,请下载原文档以浏览全部内容。如果当前文档预览出现乱码或未能正常浏览,请先下载原文档进行浏览。
1 / 2 5
下载提示
1 该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读
2 除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑修改
3 有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载
4 该文档为会员上传,版权归上传者负责解释,如若侵犯你的隐私或权利,请联系客服投诉