本系列上一篇关于DAG文章已经介绍过中介变量在回归建模中的角色。回归分析时,如果存在着中介变量时,不可将中介变量和源头变量同时纳入,谓之“母子变量”不能同时纳入,以免子变量干扰母变量的效应。 中介变量一直很重要,但是一直被忽视。很多统计学教材,特别是医学统计学教材很少提到回归分析如何控制中介变量的影响。它们提到了多重共线性,然后建议碰到多重共线性时,用逐步回归法来消除影响。 但是,实际上多重共线性的发生,很多时候是中介变量造成的。那么中介变量能否直接使用逐步回归的方法呢?这不推荐!因此,多重共线性直接用逐步回归的方法,这是非常不严谨的做法。 那么如何解决中介变量产生的一系列问题,特别是对母变量干扰作用,多重共线性的问题?这是本文希望解决的问题。 以下图的因果关系链作为例子,A对D 产生影响,但A要通过B这一变量对D产生影响,通常B可能是生物标记物,B和D关系紧密,比如血糖和胰岛素的关系。那么B便是中间变量或者中介变变量。 更多的中介变量介绍,诸位可以阅读本系列上一篇文章: 二、案例1:血糖的影响因素分析 若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平。 1)若分析基线胰岛素水平与2年后血糖的回归关系,应该可以纳入那几个因素作为自变量? 2)若要分析基线血糖状况与2年后血糖的回归关系,可以纳入那几个因素作为自变量? 3)若要研究糖尿病与血糖的关系,基线胰岛素、基线血糖是不是中介变量,要不要纳入? 自变量筛选第一步:根据上一讲的方法,构建DAG模型 本案例的DAG图形其实非常之简单,其主线是单线的因果关系。首先,胰岛素将导致基线血糖的改变,而基线血糖的改变导致糖尿病发生,而后随访血糖也会可能发生改变,但同时也有可能存在着胰岛素、基线血糖会直接影响到随访血糖的情况。 理论的情况,实际可以通过简单的数据分析予以探明,同时可以分析混杂因素和中介变量的影响。 问题一、首先第一个问题:若分析胰岛素水平与2年后血糖的回归关系,应该可以纳入那几个因素作为自变量? 本问题相对棘手,可以看出胰岛素和随访血糖之间可能存在着多线的关系。 不妨先利用SPSS分析做单因素线性回归结果: 显然胰岛素与随访血糖存在着线性回归关系,回归系数为b=-0.114,P=0.008,两者是负向关系。 接下来,如果我们采用最常见的不考虑因果的自变量筛选方法(全部纳入、先单后多),把基线血糖和糖尿病放在一起分析。多因素回归情况下,胰岛素与随访血糖的线性关系不存在着了(b=-0.008,P=0.872)。 多因素回归就是不懂其中各变量因果关系,一股脑放进去分析的结果。但是胰岛素和血糖真的没有关系吗?不是!实际上,他们的关系被基线血糖,特别是糖尿病这个变量所代替了。 通俗来说,糖尿病是拦路虎。 不仅如此,如果对该数据开展共线性分析,那么会得到什么结果呢?从特征根角度来分析,数据似乎是存在着多重共线性的! 多重共线性采用逐步回归分析?如果我们对三个自变量(胰岛素、基线血糖、糖尿病)采用逐步回归的方法,会怎么样? 那么该结果能够说明胰岛素对随访血糖没有影响吗?显然不能! 因此,如果存在着中介变量,目标变量的效应将会被改变,如果采用逐步回归法,则可能目标变量会被剔除出回归模型。 问题二、若要分析基线血糖状况与2年后血糖的回归关系,可以纳入那几个因素作为自变量? 如果我们先做一个多因素回归分析: 我们发现基线血糖与血糖的关系是存在着的(b=1.042,P=0.002),我们是不是可以欢欣雀跃,庆祝成功呢? 现在我们把糖尿病的变量去掉,结果如下, 基线血糖与血糖的关系是存在着的(b=1.327,P<0.001)。比较与上幅图基线血糖的B值, 1.042 V.S. 1.327,去掉糖尿病之后效应值变大。你认为哪个效应值才是想要的? 同样,诸位可以看出,存在与不存在着中介变量,目标变量(本问题为基线血糖)与结局的效应关系会受到扭曲,甚至得到相反的结论。 那么遇到中介变量问题,该如何处理呢? 我们把目标变量成为母变量,把中介变量称之为子变量。母变量的效应分为直接效应和间接效应。当母子变量同时存在时,母变量的效应将只剩下直接效应。但是,当我们采用回归分析探讨母变量效应,我们当然仅仅想获得间接效应,而是总效益,因此中介变量不能同时纳入回归模型。 所以,当存在多重共线性时,我们直接采用逐步回归的方法,很可能直接砍掉了母变量,而只剩下中介变量。显然,这个结果不能说明目标变量对结局没有效应,该结果就是错误的。 问题三、如果要研究糖尿病与血糖的关系,基线胰岛素和基线血糖要不要剔除呢? 现在,情况不一样了!基线胰岛素基线血糖可不是中介变量,它可能是混杂变量。所谓的混杂变量,它的存在着会干扰糖尿病与血糖的关系。当我们把胰岛素、基线血糖、和糖尿病三者同时纳入回归模型时,糖尿病效应b=1.160,P=0.022。 其它自变量不纳入,建立糖尿病与血糖的单因素线性回归方程时,糖尿病效应值b=1.967,P<0.001,单因素回归方程比多因素要来的大!这说明什么问题?说明确实存在着混杂因素。胰岛素与基线血糖是混杂因素,多因素回归的方法时,我控制了它们的干扰,因此,得到了一个不同于单因素回归分析的结果。 所以,中介变量和混杂变量存在时,需要借助DAG模型理清因果关系。没有很清楚时,可以通过初步试探性的回归分析进行确认。一般是围绕着主要研究因素去探讨,特别是中介变量,不能让它成为挡在主要研究变量的拦路虎,从而高估或者低估主要研究变量的效应。 护生患者安全感知与自主学习能力的相关性研究 该案例开展了“本科实习护生患者安全感知与自主学习能力的相关性研究”,目标是探讨自主学习能力对患者安全感知得分影响。这其中有两个关键的量表,用中文版卫生职业教育患者安全感知量表(H-PEPSS)和护理学专业学生自主学习能力量表。自主学习能力又分为三个维度自我管理能力(10个条目)、信息能力(11个条目)、学习合作能力(7个条目)。各自可以求分数,三个维度总分即自主学习能力得分。 从上述这段话可以得到,本案例存在着5个关键的定量变量,包括因变量安全感知得分,自变量自主学习能力得分、自我管理能力得分、信息能力得分、学习合作能力得分。现在怎么进行回归分析呢? 第一种思路:一股脑纳入法 作者同时纳入上述自四个变量进入回归分析。得到结果是:除了自主学习能力有统计学意义之外,其他都没有!为什么? 第二种思路:筛选纳入法 如果把自主学习能力得分排除在回归模型之外,得到下面结果:现在信息能力和自我管理能力得分都具有统计学意义了!为什么? 真相是:其实自主学习能力得分是前三者相加得分,是个中介变量! 现在诸位对中介变量的影响有深切感受了吧?再次说明,自变量筛选尽量遵守DAG理论,不能一股脑纳入,否则必然“garbage in、garbage out”。 四、如何控制中介变量的影响 基于上述案例,我已经阐明了中介变量的影响,我们不能说它是有害的,但是会误导暴露因素与结局的关系。总结来说,不妨从以下4个方面来诊断与控制中介变量的影响。 首先,必须构建DAG,理清因果关系 其次,秉持以下两句话:中介变量,不能放!混杂因素,必须放! 第三,多重共线性,不要简单粗暴采用逐步回归,仔细思考其中的可能存在着的中介变量。 第四,一篇文章同时呈现两个结果:有中介的模型、无中介的模型,可以让读者了解中介变量及其影响(下一点)。 当然,中介分析是因果关系分析重要内容,现在已经产生诸多的统计学方法,如路径分析、结构方程模、边际结构模型型等,目前,流行病学领域已经产生了诸多中介分析的方法。不过,由于本系列是初中级版,所以不再涉及,望诸位知晓。 五、回归分析论文写作范式推荐:多层次建模法 这里指的多层次模型法,并非多水平分析模型的概念,而是指,一篇论文中,若存在中介变量时,到底删不删中介变量呢?最好就是全面展示数据,删和不删都作为分析结果,建立多个模型;由于中介变量的存在,自变量存在着多个层次,因此通俗地称之为多层次回归模型法,或者说多模型法。 案例3:探讨糖调节受损者糖尿病发病的主要发病因素,假设待研究的包括自变量性别、年龄、家族糖尿病史、基线血糖水平,和因变量糖调节受损者转归结局(2年后)。 理论上,上述自变量变量的因果关系图较为明确(下图)。自变量存在具有两个层次,不是吗? 对于这样的案例,我在上一讲介绍,如果所有变量一股脑进入,则会出现年龄、家族史、性别无统计学意义的情况。如果基线血糖不放进去,论文又失色不少,那么怎么办? 解决方案是:建立两个模型,分别讨论年龄、家族史、性别,和基线血糖(结果见下表)。 (1)对于年龄、家族史、性别而言,基线血糖是中介变量,因此如果要讨论年龄、家族史、性别对糖尿病发病的影响,基线血糖不纳入模型。 (2)对于基线血糖而言,年龄、家族史、性别可能是混杂因素。因此,考虑到混杂偏倚的情况,较为妥善的思路是,人口社会经济学特征只是作为协变量或者调解变量存在。 这样的做法,分别对四个自变量都进行了解释,结果岂不美哉? 案例4:本案例,之前推文已经有所陈述:
2017年,由深圳母婴健康医院牵头,同济大学医学院、华中科技大学等多个知名机构强强联手,发表在影响因子高达7.03的《情感疾病杂志》上的一篇名为《中国产妇跟婆婆住与抑郁症的关系》。 这是一个横截面调查,由于暴露因素(与谁一起住)较为明确,回忆偏差较小,且样本量不小,结果具有有一定的可靠性。暴露因素分为三个等级(与丈夫住、与婆婆住、与父母一起住),与丈夫住为对照组。研究结局先根据Edinburgh Postnatal Depression Scale计算抑郁得分,再根据截断值变成二分类结局(抑郁、未抑郁)。同时,该论文还调查了其他影响产后抑郁状态的变量,如产妇孕期压力、社会支持、家庭收入、产次、学历等。 这样的研究如何建模呢?显然,研究可以通过构建回归(二分类结局为logistic回归分析),探讨暴露因素与产后抑郁的关系,同时也可以探讨社会支持,产前压力和产后抑郁的关系。 回归分析,自变量纳入的方法最令人脑壳生疼。该研究提供了一种常见的思路,建多个模型,将自变量逐步由少至多放入回归模型中,第一个模型,没有调整混杂因素,也就是单因素logistic回归分析;第二个模型,纳入了一些基本的信息,比如年龄年龄,户籍,教育,职业,家庭收入和医保,第三个模型,则纳入更多的与孕期有关的自变量。这个模型的自变量均在孕期前发生,将确实是混杂因素;第四个模型,则纳入了更多的照顾者、社会支持因素,来调整OR值。 为什么要这样研究?这是一种非常值得学习的统计分析思路,在SCI英文论文中非常常见。其原因在于:第一,可以充实论文结果,因为单单一个回归结果过于单薄;第二,探测混杂因素对结果的影响,以了解暴露因素与研究结局的关联性,第三,供后期讨论分析,探讨不同混杂因素扮演的角色。第四、层次分明,避免回归建模“垃圾进、垃圾出”的下场。 模型二纳入:年龄,户籍,教育,职业,家庭收入和医保 模型三纳入:模型一以及产次,生产方式,婴儿性别,出生体重和孕期压力 模型四纳入:模型二以及产后照顾者和社会支持 现在诸位对中介变量的影响有深切感受了吧?再次说明,自变量筛选尽量遵守DAG理论,不能一股脑纳入,否则必然“garbage in、garbage out”。 系列撰写者:郑卫军,浙江中医药大学医学统计学教研室主任。 |