线性回归中,原因变量间如何判断其对结果变量的重要性?

* 1、项目三 某调查问卷的问题:“您自己有手机吗?请选择答案:A.有;B.没有”,属于()问题

* 2、项目四 街头拦截访问的缺点之一是()

* 3、项目五 下列哪项不属于常用的市场调查方式()

* 4、项目三 问卷调查中对所提出的问题并不列出所有可能答案,而是由被调查者自由作答的问题是()

* 5、项目五 为了解1200名学生对学校教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔k为()

* 6、项目四 任务1 文案调查法所收集的资料也叫()

* 7、项目七 ()是市场预测要素中最重要的要素,其它三个要素只有与其结合才能发挥效用。

* 8、项目六 在对2015个数据进行整理的分布直方图中,各组的频数之和与频率之和分别等于()

* 9、项目四 文案调查法收集的资料也叫()

* 10、项目五 在总体中先按一定标志顺序排列,并根据总体单位数和样本单位数计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位的技术是()

* 11、项目四 “神秘调查法”是一套规范了的亲身经历的观察方法,主要用来检查()

* 12、项目七 相关系数r的范围是()

* 13、项目一 企业营销人员通过发现消费者现实的和潜在的(),寻找各种“环境机会”,即市场机会

* 14、项目一 市场调查的核心内容是()

* 15、项目三 正文问题的形式不包括()

* 16、项目七 不属于定性预测法的方法是()

* 17、项目四 下列哪种市场调查法不属于观察法?()

* 18、项目四 下列哪种调查法与邮寄问卷的性质与效果最相类似,只是邮寄问卷和回收问卷的方式都通过电子邮件形式来完成,可以大大提高了调查的效率()

* 19、项目四 关于实施焦点小组访谈法以下说法错误的是()

* 20、项目三 问卷设计 “你认为华联超市的经营特色在哪里?”这样的问句属于()

* 21、项目六有目的的收集:整理和加工分析市场信息,使之集中化:有序化,成为可利用的信息,这一过程是()

* 22、项目二 与决策者沟通交流的注意事项,错误的是()

* 23、项目五 ()是指将总体依某种标准分层(群);然后按照各层样本数与该层总体数成比例的原则主观抽取样本

* 24、项目八 单选题 下面叙述错误的是()

* 25、项目一市场营销是指企业在通过调查了解()的基础上,根据消费者需求开发相应的产品或服务,以满足消费者的需求,并通过与消费者进行交换,以实现企业经营目标的过程。

* 26、项目五 某工厂生产的产品,用速度恒定的传送带将产品送入包装车间之前,质检员每隔3分钟从传送带上是特定位置取一件产品进行检测,这种抽样方法是()

* 27、项目五 要从已编号(1-50)的50枚最新研制的某型号导弹中随机抽取5枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法,确定所选取的5枚导弹的编号可能是()

* 28、项目三 问卷设计 “某某啤酒制作精细,泡沫丰富,味道纯正,您是否喜欢”犯了()方面的错误

* 29、项目二 单选题 市场调查首先要解决的问题是()

* 30/项目六 有一个学生考试成绩为70分,这个变量值应归入()

* 31、项目三 调查问卷的结构不包括()

* 32、项目四 在访问法中,哪种方法获得信息量最大()

* 33、项目二 关于市场调查的目的,下面答案哪项表述最到位()

* 34、项目八 市场调查报告说明技巧说法错误的是()

* 35、项目七 回归方程的标准误差是通过计算()来进行的

* 36、项目二 ()即通过小范围内选择部分单位进行试点调查,对调查方案进行实地检验,及时总结并且做出修改。

* 37、项目一 市场的构成要素不包括()

* 38、项目二 下面属于针对竞争对手一般性的调查的是()

* 39、项目八 ()是调查分析报告内容的浓缩点。

* 40、项目八 单选题 对于你所写的调查报告,如果阅读人管理地位越高,调查报告的内容范围越(),字数越( )

* 41、项目三 “现在你用何种牌子洗衣粉?”这是()

* 42、项目七 时间序列数据会呈出现一种长期趋势,它的表现()

* 43、项目二 市场调查实践中,调查方案的每一个细节都可能有多种选择,综合考虑和权衡利弊,这体现了()

* 44、项目一 市场调查首先要解决的问题是()

* 45、项目六 将50个数据分成3组,其中第一组和第三组的频率之和为0.7,则第二组的频数是()

* 46、项目一 市场调查含义 市场调查工作中,()阶段是现场实施阶段

* 47、项目八 下列叙述正确的是()

* 48、项目六 ()是统计调查的继续:统计分析的前提

* 49、项目七 德尔菲法又称()

* 50、项目六 收集市场信息要讲究效用,下面哪种说法是错误的()

* 51、项目八 调查报告的类型包括:() 【多选题】

* 52、项目二 市场调查的宏观环境调查主要包括() 【多选题】

* 53、项目五 分群抽样中分群的原则是() 【多选题】

* 54、项目二 市场调查方式就是如何选择:确定调查对象。按照对象涉及的范围,可分为()和两大类。 【多选题】

* 55、项目四 文案调查法的适用范围包括() 【多选题】

* 56、项目五 抽样调查的流程包括() 【多选题】

* 57、项目二 一般来说,调查项目应包括() 【多选题】

* 58、项目七 集合意见法的步骤是() 【多选题】

* 59、项目三 为设计符合调研的需求,能获得足够:适用和准确的信息资料的调查问卷,至少需要满足的具体要求是() 【多选题】

* 60、项目一市场的构成要素包括() 【多选题】

* 61、项目八 口头报告的优点有:() 【多选题】

* 62、项目五 关于系统抽样,以下说法正确的是() 【多选题】

* 63、项目三 在问卷的试答修改阶段,解决问卷存在的哪些问题() 【多选题】

* 64、项目二 市场调查方案评价的方法包括() 【多选题】

* 65、项目八 市场调查报告的作用() 【多选题】

* 66、项目三 以下对于问卷设计的要求,正确的是() 【多选题】

* 67、项目六 统计表由 ()部分构成 【多选题】

* 68、项目七 市场预测的内容有() 【多选题】

* 69、项目六 根据主词的分组情况,统计表可以分为()  【多选题】

* 70、项目一 市场的功能包括() 【多选题】

* 71、项目八 回归分析法的步骤为() 【多选题】

* 72、项目五 在简单随机抽样中,每一个个体被抽中的可能性() 【多选题】

* 73、项目七 德尔菲法的步骤() 【多选题】

* 74、项目四 网络调查法的特点不包括() 【多选题】

* 75、项目二 试点调查法具体操作时应注意以下几个问题() 【多选题】

* 76、项目四 观察计划包括() 【多选题】

* 77、项目七 常用的定量预测法主要有() 【多选题】

* 78、项目三 在介绍性说明词和通过过滤性问题发现合格的访谈人员后,首先提出的问题应该是() 【多选题】

* 79、项目四 焦点小组访谈的主持人的特征是() 【多选题】

* 80、项目四 邮寄调查具有下列优点() 【多选题】

* 81、项目一 市场含义() 【多选题】

* 82、项目五 为了提高抽样调查的有效性,需要切实控制误差,具体可以采取的措施有() 【多选题】

* 83、项目七 德尔菲法的特点是() 【多选题】

* 84、项目三 检查督导项目包括() 【多选题】

* 85、项目三 任务1 问卷设计的结构包括() 【多选题】

* 86、项目二 对竞争对手一般性的调查包括() 【多选题】

* 87、项目一 市场调查具有()特征 【多选题】

* 88、项目一 市场调查的功能包括() 【多选题】

* 89、项目二 市场调查方案评价标准包括() 【多选题】

* 90、项目五 分层抽样一般分为() 【多选题】

* 91、项目三 一份完整的调查问卷通常包括():被访者情况:编码和作业记载几部分 【多选题】

* 92、项目六 对统计总体进行分组时,采用等距分组还是异距分组,决定于() 【多选题】

* 93、项目八 调查报告的介绍部分应包括()几部分组成 【多选题】

* 94、项目八 市场调查报告标题的形式有() 【多选题】

* 95、项目四 深度访谈前的准备工作主要有() 【多选题】

* 96、项目六 选择分组标志时应考虑的因素有() 【多选题】

* 97、项目八 调查报告中语言运用技巧() 【多选题】

* 98、项目六 在组距数列中,影响各组次数分布的主要因素有() 【多选题】

* 99、项目七 只要预测准确,决策就会是正确的。

* 100、项目二 市场调查方法的说明主要是详细说明选择什么方法去收集资料,具体的操作步骤是什么。如采取抽样调查方式,那么必须说明抽样方案的步骤:所取样本的大小和要想达到的精度指标

* 101、项目四 做观察记录,应符合准确性:完整性:有序性的要求,为此,必须及时进行记录,不能一味依赖记忆

* 102、项目五 使用简单随机抽样,每次抽取时,总体中任一单位被抽中的概率是相等的

* 103、项目四 非结构式访问,它事先不制作统一的问卷和表格,没有同意的提供顺序,调查人员只是给一个题目或提纲,由调查人员和受访者自由交谈以获得所需要资料

* 104、项目八 市场调查报告不一定一种记录调查结论的文体

* 105、项目三 在实践汇总,二项选择法统计处理方便,应该尽量多用

* 106、项目八 市场调查报告是市场调查项目质量的标志

* 107、项目四 网络调查的适应范围很广,如对“城镇居民对银行卡收费的态度”的调查,就完全可以运用网络调查法。

* 108、项目二 决策问题是要做出管理决策,需要什么信息?如何获得这些信息?是以信息为导向的

* 109、项目八 对于太大的数字,不易理解和记忆,如果把大数字换算成小数字,则便于记忆

* 110、项目五 总体若为1000个消费者,抽200人作为样本进行调查,则样本区间为2

* 111、项目二 试点是整个调查方案可行性研究中的一个十分重要的步骤,对于大规模市场调查来讲尤为重要。试点的目的是使调查方案更加科学和完善,而不仅是搜集资料

* 112、项目二 完整的市场调查方案必须包含一些必要的内容,且这些内容不是独立的,之间有着内在的逻辑关系,在设计时需要遵循一定流程来完成

* 113、项目三 多项选择时,要求答案尽可能包括所有可能的情况,避免应答者放弃回答或随意回答

* 114、项目三 在问卷初步设计阶段要按照设计原则设计问卷的终稿

* 115、项目六 频数和频率反应每个对象出现的频繁程度的效果是一样的

* 116、项目五 抽样调查适用于总体单位无限多,事实上不可能进行全面调查时使用。

* 117、项目三 问卷设计是由一系列相关工作过程所构成的,为使问卷具有科学性和可行性,需要按照一定的程序进行

* 118、项目七 专家人数的多少要视预测课题的大小而定,一般以3~5人为宜

* 119、项目七 德尔菲法的特点是专家互不见面,避免相互影响,且反复征询:归纳:修改,意见趋于一致,结论比较切合实际。

* 120、项目六 频数是表示所有对象出现的次数

* 121、项目一 描述性调查主要是收集:整理和分析第二手资料

* 122、项目四 深层访谈法适用于了解简单,容易回答的问题

* 123、项目七 集合意见法又称为头脑风暴法,它是专家通过匿名判断的一种定性预测法

* 124、项目一 市场调查是企业营销活动的第一步,又贯穿其全过程

* 125、项目八 市场调查报告是一项市场调查项目最终成果的主要表现

* 126、项目四 提问是访问调查的主要环节和重要手段,访谈的技巧关键是提问的技巧,提问成功与否决定着访问能否顺利进行和调查的效果

* 127、项目三 问卷设计的准备阶段是整个问卷设计的基础,是问卷调查能否成功的前提条件

* 128、项目六 频数是表示每个对象出现的次数

* 129、项目四 文案调查法的资料来源包括企业内部资料和企业外部资料

* 130、项目八 介绍部分也提供了深入阅读全文的检索方法和主要提示

* 131、项目一 市场是商品交易的场所

* 132、项目六 所有频率之和等于1

* 133、项目五 分群随机抽样要求各群体之间保持异质。

* 134、项目二 逻辑分析法是指通过组织一些丰富市场调查经验的人士,对设计出来的市场调查方案进行初步研究和判断,以说明调查方案的合理性和可行性

* 135、项目七 移动平均法适用于即期预测,对有稳定且平滑的发展趋势特点的数据预测没有优势,但对趋势的突然变化比较敏感

* 136、项目五 重复抽样和不重复抽样的抽样误差的大小不同,采用不重复抽样比采用重复抽样的抽样误差小

* 137、项目二 判断题 调查内容一方面应是调查任务所需,是能够取得的数据,凡是不能取得数据的调查项目和内容应舍去

* 138、项目四 网络调查的应用领域十分广泛,主要集中在产品消费:广告效果:社情民意:产品市场供求等方面的市场研究

* 139、项目一市场能成为连接生产与消费的纽带

* 140、项目四 访问调查法的特点是问答性:多样性:简明性和计划性。它通过直接或间接的回答方式来了解被调查者的看法和意见

* 141、项目一 市场环境调查是指对影响企业生产经营活动的外部因素所进行的调查。

* 142、项目七 市场预测是为企业决策提供信息的重要手段,做好市场预测有益于决策者提高市场预见能力和判断能力。

* 143、项目六 一个总次数一定的实验中频数越大,频率就越大

* 144、项目六 一般情况下,数据透视表的结果随源数据的变化而即时更新

* 145、项目五 采用机械抽样对总体单位进行排队,必须选择一定的标志,这个标志的选择既可以是无关标志,又可以是有关标志

* 146、项目三 问卷提问问题的顺序安排不同,被调查者回答的结果往往也会产生差异。一般先主要问题,后次要问题,总括性问题应先于特定性问题

* 147、项目一 市场调查的内容主要包括市场环境调查:市场需求调查:市场营销活动调查:竞争者调查。

* 148、项目八 市场调查报告就是市场调查人员的最终工作成果

“如何科学地构建回归模型系列


本系列上一篇关于DAG文章已经介绍过中介变量在回归建模中的角色。回归分析时,如果存在着中介变量时,不可将中介变量和源头变量同时纳入,谓之“母子变量”不能同时纳入,以免子变量干扰母变量的效应。

中介变量一直很重要,但是一直被忽视。很多统计学教材,特别是医学统计学教材很少提到回归分析如何控制中介变量的影响。它们提到了多重共线性,然后建议碰到多重共线性时,用逐步回归法来消除影响。

但是,实际上多重共线性的发生,很多时候是中介变量造成的。那么中介变量能否直接使用逐步回归的方法呢?这不推荐!因此,多重共线性直接用逐步回归的方法,这是非常不严谨的做法。

那么如何解决中介变量产生的一系列问题,特别是对母变量干扰作用,多重共线性的问题?这是本文希望解决的问题。

以下图的因果关系链作为例子,A产生影响,但A要通过B这一变量对D产生影响,通常B可能是生物标记物,BD关系紧密,比如血糖和胰岛素的关系。那么B便是中间变量或者中介变变量。

更多的中介变量介绍,诸位可以阅读本系列上一篇文章:

二、案例1:血糖的影响因素分析

若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平。

1)若分析基线胰岛素水平与2年后血糖的回归关系,应该可以纳入那几个因素作为自变量?

2)若要分析基线血糖状况与2年后血糖的回归关系,可以纳入那几个因素作为自变量?

3)若要研究糖尿病与血糖的关系,基线胰岛素、基线血糖是不是中介变量,要不要纳入?

自变量筛选第一步:根据上一讲的方法,构建DAG模型

本案例的DAG图形其实非常之简单,其主线是单线的因果关系。首先,胰岛素将导致基线血糖的改变,而基线血糖的改变导致糖尿病发生,而后随访血糖也会可能发生改变,但同时也有可能存在着胰岛素、基线血糖会直接影响到随访血糖的情况。

理论的情况,实际可以通过简单的数据分析予以探明,同时可以分析混杂因素和中介变量的影响。

问题一、首先第一个问题:若分析胰岛素水平与2年后血糖的回归关系,应该可以纳入那几个因素作为自变量?

本问题相对棘手,可以看出胰岛素和随访血糖之间可能存在着多线的关系。

不妨先利用SPSS分析做单因素线性回归结果:

显然胰岛素与随访血糖存在着线性回归关系,回归系数为b=-0.114,P=0.008,两者负向关系。

接下来,如果我们采用最常见的不考虑因果的自变量筛选方法(全部纳入、先单后多),把基线血糖和糖尿病放在一起分析。多因素回归情况下,胰岛素与随访血糖的线性关系不存在着了b=-0.008,P=0.872)

多因素回归就是不懂其中各变量因果关系,一股脑放进去分析的结果。但是胰岛素和血糖真的没有关系吗?不是!实际上,他们的关系被基线血糖,特别是糖尿病这个变量所代替了。

通俗来说,糖尿病是拦路虎。

不仅如此,如果对该数据开展共线性分析,那么会得到什么结果呢?从特征根角度来分析,数据似乎是存在着多重共线性的!

多重共线性采用逐步回归分析?如果我们对三个自变量(胰岛素、基线血糖、糖尿病)采用逐步回归的方法,会怎么样?

那么该结果能够说明胰岛素对随访血糖没有影响吗?显然不能!

因此,如果存在着中介变量,目标变量的效应将会被改变,如果采用逐步回归法,则可能目标变量会被剔除出回归模型。

问题二、若要分析基线血糖状况与2年后血糖的回归关系,可以纳入那几个因素作为自变量?

如果我们先做一个多因素回归分析:

我们发现基线血糖与血糖的关系是存在着的(b=1.042,P=0.002),我们是不是可以欢欣雀跃,庆祝成功呢?

现在我们把糖尿病的变量去掉,结果如下,

基线血糖与血糖的关系是存在着的(b=1.327,P<0.001)。比较与上幅图基线血糖的B值, 1.042 V.S. 1.327,去掉糖尿病之后效应值变大。你认为哪个效应值才是想要的?

同样,诸位可以看出,存在与不存在着中介变量,目标变量(本问题为基线血糖)与结局的效应关系会受到扭曲,甚至得到相反的结论。

那么遇到中介变量问题,该如何处理呢? 我们把目标变量成为母变量,把中介变量称之为子变量。母变量的效应分为直接效应和间接效应。当母子变量同时存在时,母变量的效应将只剩下直接效应。但是,当我们采用回归分析探讨母变量效应,我们当然仅仅想获得间接效应,而是总效益,因此中介变量不能同时纳入回归模型。

所以,当存在多重共线性时,我们直接采用逐步回归的方法,很可能直接砍掉了母变量,而只剩下中介变量。显然,这个结果不能说明目标变量对结局没有效应,该结果就是错误的。

问题三、如果要研究糖尿病与血糖的关系,基线胰岛素和基线血糖要不要剔除呢?

现在,情况不一样了!基线胰岛素基线血糖可不是中介变量,它可能是混杂变量。所谓的混杂变量,它的存在着会干扰糖尿病与血糖的关系。当我们把胰岛素、基线血糖、和糖尿病三者同时纳入回归模型时,糖尿病效应b=1.160,P=0.022

其它自变量不纳入,建立糖尿病与血糖的单因素线性回归方程时,糖尿病效应值b=1.967,P<0.001,单因素回归方程比多因素要来的大!这说明什么问题?说明确实存在着混杂因素。胰岛素与基线血糖是混杂因素,多因素回归的方法时,我控制了它们的干扰,因此,得到了一个不同于单因素回归分析的结果。

所以,中介变量和混杂变量存在时,需要借助DAG模型理清因果关系。没有很清楚时,可以通过初步试探性的回归分析进行确认。一般是围绕着主要研究因素去探讨,特别是中介变量,不能让它成为挡在主要研究变量的拦路虎,从而高估或者低估主要研究变量的效应。

护生患者安全感知与自主学习能力的相关性研究

该案例开展了“本科实习护生患者安全感知与自主学习能力的相关性研究”,目标是探讨自主学习能力对患者安全感知得分影响。这其中有两个关键的量表,用中文版卫生职业教育患者安全感知量表(H-PEPSS)和护理学专业学生自主学习能力量表。自主学习能力又分为三个维度自我管理能力(10个条目)、信息能力(11个条目)、学习合作能力(7个条目)。各自可以求分数,三个维度总分即自主学习能力得分。

从上述这段话可以得到,本案例存在着5个关键的定量变量,包括因变量安全感知得分,自变量自主学习能力得分、自我管理能力得分、信息能力得分、学习合作能力得分。现在怎么进行回归分析呢?

第一种思路:一股脑纳入法

作者同时纳入上述自四个变量进入回归分析。得到结果是:除了自主学习能力有统计学意义之外,其他都没有!为什么?

第二种思路:筛选纳入法

如果把自主学习能力得分排除在回归模型之外,得到下面结果:现在信息能力和自我管理能力得分都具有统计学意义了!为什么?

真相是:其实自主学习能力得分是前三者相加得分,是个中介变量!

现在诸位对中介变量的影响有深切感受了吧?再次说明,自变量筛选尽量遵守DAG理论,不能一股脑纳入,否则必然garbage in、garbage out”

四、如何控制中介变量的影响

基于上述案例,我已经阐明了中介变量的影响,我们不能说它是有害的,但是会误导暴露因素与结局的关系。总结来说,不妨从以下4个方面来诊断与控制中介变量的影响。

首先,必须构建DAG,理清因果关系

其次,秉持以下两句话:中介变量,不能放!混杂因素,必须放!

第三,多重共线性,不要简单粗暴采用逐步回归,仔细思考其中的可能存在着的中介变量。

第四,一篇文章同时呈现两个结果:有中介的模型、无中介的模型,可以让读者了解中介变量及其影响(下一点)。

当然,中介分析是因果关系分析重要内容,现在已经产生诸多的统计学方法,如路径分析、结构方程模、边际结构模型型等,目前,流行病学领域已经产生了诸多中介分析的方法。不过,由于本系列是初中级版,所以不再涉及,望诸位知晓。

五、回归分析论文写作范式推荐:多层次建模法

这里指的多层次模型法,并非多水平分析模型的概念,而是指,一篇论文中,若存在中介变量时,到底删不删中介变量呢?最好就是全面展示数据,删和不删都作为分析结果,建立多个模型;由于中介变量的存在,自变量存在着多个层次,因此通俗地称之为多层次回归模型法,或者说多模型法。

案例3:探讨糖调节受损者糖尿病发病的主要发病因素,假设待研究的包括自变量性别、年龄、家族糖尿病史、基线血糖水平,和因变量糖调节受损者转归结局(2年后)。

理论上,上述自变量变量的因果关系图较为明确(下图)。自变量存在具有两个层次,不是吗?

对于这样的案例,我在上一讲介绍,如果所有变量一股脑进入,则会出现年龄、家族史、性别无统计学意义的情况。如果基线血糖不放进去,论文又失色不少,那么怎么办?

解决方案是:建立两个模型,分别讨论年龄、家族史、性别,和基线血糖(结果见下表)。

(1)对于年龄、家族史、性别而言,基线血糖是中介变量,因此如果要讨论年龄、家族史、性别对糖尿病发病的影响,基线血糖不纳入模型。

(2)对于基线血糖而言,年龄、家族史、性别可能是混杂因素。因此,考虑到混杂偏倚的情况,较为妥善的思路是,人口社会经济学特征只是作为协变量或者调解变量存在。

这样的做法,分别对四个自变量都进行了解释,结果岂不美哉?

案例4:本案例,之前推文已经有所陈述:



2017年,由深圳母婴健康医院牵头,同济大学医学院、华中科技大学等多个知名机构强强联手,发表在影响因子高达7.03的《情感疾病杂志》上的一篇名为《中国产妇跟婆婆住与抑郁症的关系》。

这是一个横截面调查,由于暴露因素(与谁一起住)较为明确,回忆偏差较小,且样本量不小,结果具有有一定的可靠性。暴露因素分为三个等级(与丈夫住、与婆婆住、与父母一起住),与丈夫住为对照组。研究结局先根据Edinburgh Postnatal Depression Scale计算抑郁得分,再根据截断值变成二分类结局(抑郁、未抑郁)。同时,该论文还调查了其他影响产后抑郁状态的变量,如产妇孕期压力、社会支持、家庭收入、产次、学历等。

这样的研究如何建模呢?显然,研究可以通过构建回归(二分类结局为logistic回归分析),探讨暴露因素与产后抑郁的关系,同时也可以探讨社会支持,产前压力和产后抑郁的关系。

回归分析,自变量纳入的方法最令人脑壳生疼。该研究提供了一种常见的思路,建多个模型,将自变量逐步由少至多放入回归模型中,第一个模型,没有调整混杂因素,也就是单因素logistic回归分析;第二个模型,纳入了一些基本的信息,比如年龄年龄,户籍,教育,职业,家庭收入和医保,第三个模型,则纳入更多的与孕期有关的自变量。这个模型的自变量均在孕期前发生,将确实是混杂因素;第四个模型,则纳入了更多的照顾者、社会支持因素,来调整OR值。

为什么要这样研究?这是一种非常值得学习的统计分析思路,在SCI英文论文中非常常见。其原因在于:第一,可以充实论文结果,因为单单一个回归结果过于单薄;第二,探测混杂因素对结果的影响,以了解暴露因素与研究结局的关联性,第三,供后期讨论分析,探讨不同混杂因素扮演的角色。第四、层次分明,避免回归建模“垃圾进、垃圾出”的下场。

模型二纳入:年龄,户籍,教育,职业,家庭收入和医保

模型三纳入:模型一以及产次,生产方式,婴儿性别,出生体重和孕期压力

模型四纳入:模型二以及产后照顾者和社会支持

现在诸位对中介变量的影响有深切感受了吧?再次说明,自变量筛选尽量遵守DAG理论,不能一股脑纳入,否则必然garbage in、garbage out”

系列撰写者:郑卫军,浙江中医药大学医学统计学教研室主任。

我要回帖

更多关于 回归模型决定系数的取值范围是 的文章

 

随机推荐