长理培训真题库
我的
军队文职考试一本通

透析证候研究中变量聚类结果

2020-02-24 16:21
近年来,有不少学者利用系统变量聚类方法对西医病种中中医症状的分布情况进行研 究。例如,麻氏等[1]通过对 739 例胆病病案进行分析,得到 9 个类,并把它们分别诠释 为肝胆湿热证、肝胆郁热证、肝胆蕴热证、肝胆气郁证、血瘀证、脾失健运证、阳虚寒湿 证、阴虚内热证和热毒亡阳证。笔者剖析系统变量聚类结果的统计学含义,并基于此讨论 把它们诠释为证候的合理性。我们的结论是,变量聚类的结果不能诠释为证候。 1 变量聚类结果的统计学含义 在麻氏等[2]分析的胆病数据中,症状变量全部是二值的。分析所得的变量类之一如下。 类 1:发热寒战、右上腹压痛拒按、黄疸、恶心呕吐、右上腹疼痛、大便秘结、小便 色黄、苔黄、苔腻、脉滑、脉弦、口苦。 本节以这个类为例,剖析系统变量聚类结果的含义。要准确把握这个类的含义,需要 考虑 3 个因素,即“变量”与“事件”这两个概念的区别、变量间相似系数的定义以及变量类间 相似系数的定义。下面逐一讨论这 3 个因素。 1.1 变量与事件 变量是刻画事物某方面特征的指标,它的每一个取值对应一个事件。先拿概率论中常 用的抛掷硬币试验为例来解释这两概念。抛掷硬币试验可以从多个方面来看:使用的硬币 是否质地均匀、抛掷方式如何、抛掷结果是什么等等。“抛掷结果”这个指标刻画试验一个 方面的特征,因此它是一个变量。这个变量有两个可能的取值,即“正面朝上”和“反面朝上”。 于是有两个事件,即“抛掷结果正面朝上”和“抛掷结果反面朝上”。 接下来看一个中医的例子。“有无口苦”是反映患者身体一个方面特征的指标,因此它 是一个变量,称为症状变量。它有两个可能的取值,即“有”和“无”。于是有两个症状事件, 即“(患者)有口苦”和“(患者)无口苦”。如果要考虑不同轻重程度,相应的变量是“口苦程度”。 一般情况下,程度变量有 4 个可能的取值,即“无”、“轻”、“中”和“重”。于是有 4 个症状事 件,即“无口苦”、“有轻度口苦”、“有中度口苦”和“有重度口苦”。为了统一二值和多值情况 下症状变量的称谓,可以用“口苦情况”来替代“有无口苦”和“口苦程度”。 “有口苦”这个词通常被简化为“口苦”。同时,“口苦情况”也被简化为“口苦”。这样,“口 苦”时而指“口苦情况”这个变量,时而又指“有口苦”这个事件。在下一节读者将会看到,这 种歧义性造成了对变量聚类结果之含义的误解。 顾名思义,变量聚类的对象是变量而不是事件,其结果是变量的类而不是事件的类。 所以,类 1 的成员是“口苦情况”等症状变量,而不是“有口苦”等症状事件。为了避免误解, 我们把类 1 的定义改写如下。 类 1:发热寒战情况、右上腹压痛拒按情况、黄疸情况、右上腹疼痛情况、恶心呕吐 情况、大便秘结情况、小便色黄情况、苔黄情况、苔腻情况、脉滑情况、脉弦情况、口苦 情况。 1.2 变量类相似系数 “口苦情况”等 12 个症状变量为什么会被聚成一类呢?它们被聚成一类这件事的含义是 什么?一个粗略的回答是,这意味着“口苦情况”等 12 个症状变量之间的相似度高。如果要 准确回答这个问题,则需要考虑如何基于变量之间的相似系数定义类之间的相似系数。 常用的方法有最大相似系数法、最小相似系数法和平均相似系数法。在计算两个类 A 和 B 间的相似系数时,考虑 A 中变量与 B 中变量间的相似系数。最大相似系数法取其最大 者,最小相似系数法取其最小者,而平均相似系数法取平均数[2]。 如果类 1 是用最大相似系数法获得的,那么对类中任意一个变量 V,类中有另外一个 变量 U 使得 V 和 U 间的相似系数不低于某个阈值。如果类 1 是用最小相似系数法获得的, 那么类中任意两个变量间的相似系数不低于某个阈值。如果类 1 是用平均相似系数法获得 的,那么类中变量间的相似系数的平均值不低于某个阈值[2]。 上面提到阈值是怎样决定的呢?在获得类 1 的过程中,需要合并多对变量类,而每对 类之间都有一个相似系数。这些相似系数的最小者就是上面说的阈值。一般说,最大相似 系数法的阈值最大,平均相似系数法的阈值次之,最小相似系数法的阈值最小。 1.3 变量相似系数 变量间相似系数的高低的直观含义是什么?这个问题的答案依赖所选用的相似系数是 什么。相似系数有各种各样的类型[2]。作为例子,这里只讨论 Jaccard 相似度和相关系数。 Jaccard 相似度只适用于二值变量。下面用一个例子来说明它的定义和直观含义。用 d 记脉弦和口苦同时出现的样本数,b 记脉弦出现而口苦不出现的样本数,c 记脉弦不出现 而口苦出现的样本数。“脉弦情况”和“口苦情况”这两个变量的 Jaccard 相似度定义为 d/ (b+c+d)。Jaccard 相似度的取值在 0~1 之间,可以视为是症状出现的“同步率”。它的值 越高,脉弦和口苦出现时的“同步率”就越高,即脉弦和口苦的出现更接近如下情况:要么 两者都不出现,要么两者都出现。 相关系数是统计学中用来度量数字变量间关联程度的一个指标。如果把症状的出现表 示为 1,不出现表示为 0,那么就可以定义“脉弦情况”和“口苦情况”间的相关系数。相关系 数的取值在 0~1 之间。当两个变量的可能取值相同时,它们之间的相关系数也可视为是 一种“同步率”。“脉弦情况”和“口苦情况”间的相关系数越高,脉弦和口苦同时出现或同时不 出现的次数也就越多,反之亦然。 1.4 类 1 的含义 在分析数据时,麻氏等[1]用的是 SAS 软件。由于他们未提及软件设置,所使用的变 量相似系数应该是 SAS 默认的 Jaccard 相似度,而所使用的变量类相似系数应该是 SAS 默认的平均相似系数。所以,类 1 是一个由口苦情况等 12 个症状变量组成的集合,其含 义是这 12 变量两两之间的 Jaccard 相似度平均不低于某个阈值,即口苦等 12 个症状两两 同步出现的频率平均不低于某个阈值。 2 证候的含义 证候是一个具争议性的概念。但是,在诠释变量聚类结果时人们所使用的证候其意义 基本是统一的、清楚的。例如,在把类 1 诠释为肝胆湿热证时,“肝胆湿热证”对应由口苦 等 12 个症状(事件)组成的症状群,其意义如下:①如果这些症状全部(或其大多数)在某患 者身上同时出现,那么该患者有肝胆湿热证;②如果这些症状中许多不在一患者身上出现, 那么该患者无肝胆湿热证。 3 变量聚类结果的诠释 现在我们以类 1 为例来讨论变量聚类的诠释问题。在文献[1]中,类 1 被诠释为肝胆湿 热证。这是由于类 1 被认为是由“有口苦”等 12 个症状事件组成的集合,进而其意义被理解 为口苦等 12 个症状同时出现。在把类 1 诠释为肝胆湿热之后,进一步得出结论:肝胆湿 热证是肝胆病中的中医证候之一。这就是说,肝胆湿热证存在于研究涉及的 739 个样本中, 即有一部分样本同时包含口苦等 12 个症状或其大多数。为方便讨论,我们将这一段文字 涉及的几件事按逻辑顺序整理如下:①把类 1 认为是由“有口苦”等 12 个症状事件组成的集 合;②把类 1 的意义理解为口苦等 12 个症状同时出现,从而把它诠释为肝胆湿热证。③ 在②的基础上,得出肝胆病中有肝胆湿热证的结论,即有一部分样本同时包含“口苦”等 12 个症状或其大多数。 根据第 2 节的结论,类 1 是症状变量的集合而不是症状事件的集合。所以,上述第 1 步是不正确的。再根据第 2 节的结论,类 1 的意义不是口苦等 12 个症状同时出现。实际 上,句子“口苦等 12 个症状同时出现”本身是一个病句。显然,口苦等 12 症状不可能在每 一个样本中都同时出现。那么它们究竟在哪些样本中出现呢?句子没有指明,因此意义不 清。所以,第 2 步也是错误的。最后,第 3 步从“口苦等 12 个症状同时出现”这个含义不清 的命题推出“有一部分样本同时包含口苦等 12 个症状或其大多数”。这是不合逻辑的。 上述三步都有问题。那么有没有可能不通过它们,而直接从类 1 的含义出发得出“有一 部分样本同时包含口苦等 12 个症状或其大多数”这个结论呢?回答是否定。类 1 的含义只 是说口苦等 12 个症状两两以一定频率在样本中同时出现。这并不意味 12 个症状同时出现 在某些样本中。在逻辑上,从两两双边关系是无法推出多边关系的。打一个比方:青年 A 与一对好朋友 B 和 C 谈三角恋爱,A 和 B 常常一起出现,A 和 C 常常一起出现,B 和 C 常 常一起出现,但这些并不意味着他们三人会同时出现。 上面的讨论以文献[1]为例。但是,所指出的问题是其它用变量聚类研究证候分布工作 共有的。问题的根源在于研究目的与研究方法不匹配。这些工作是要通过分析一组关于西 医某病种的样本,揭示该病种中中医证候的分布规律,这其实是揭示该组样本中中医证候 的分布情况。简而言之,这就是要揭示样本某方面的特征和性质。变量聚类方法只考虑变 量间的关系,完全不分析样本的特征和性质。既然如此,它又怎么能揭示样本中中医证候 的分布规律呢? 4 结束语 变量聚类所得到的不是症状事件的类,而是症状变量的类,其含义不是一些症状同时 出现于一些患者,从而不能诠释为证候。变量聚类不分析样本的特征和性质,从而不可能 揭示证候在样本中的分布规律。
温馨提示:如果当前文档预览出现乱码或未能正常浏览,请先下载原文档进行浏览。
透析证候研究中变量聚类结果 第 1 页

下载提示

1 该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读

2 除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑修改

3 有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载

4 该文档为会员上传,版权归上传者负责解释,如若侵犯你的隐私或权利,请联系客服投诉

最近更新

热门排行