医学统计学怎么学中如何对统计结果进行描述?

统计软件的应用是很多临床医生及科研人员大多要经历的一条路径,主要是为了在研究中把统计模型用软件能够识别的语言表达出来,并正确地解读软件输出的结果。常见临床研究中常用的数据统计软件主要有SPSS,STATA,SAS,R语言这四款,各有优势。其中SPSS界面友好,操作简单,统计分析功能强大,对于不具备编程基础的人来说容易上手。那么谈到熟悉SPSS,最重要的第一步就是明确:何种数据用何种统计方法。无论是总体数据还是样本数据,描述统计都是了解它们的第一步。在统计基础文章中介绍过,描述数据可以从三个维度进行:集中趋势描述,离散程度描述和分布形态描述。每个描述维度都有相应的描述统计量。下面我们先来简要介绍一下如何利用spss进行统计描述。SPSS将描述数据三个维度的所有统计量都整合进入【描述统计】菜单,能够非常方便的对定距数据进行描述,从而帮助分析者快速的了解数据,为进一步的数据分析打下坚实的基础。下图是SPSS的【描述统计】的统计量选择菜单:从图中可知,该菜单提供了三个维度的特征统计量供分析者进行选择。集中趋势指标是平均值;离散指标包括标准差、方差、最大值、最小值、范围、标准误差平均值;分布状况指标包括峰度和偏度。除了以上描述性指标以外,SPSS描述统计功能还能够将分析数据转换成Z分数(普通正态分布转换成标准正态分布)。在下图的左下角有一行小字:将标准化值另存为变量,如果将这行小字选中,则在原始数据表中将新生成一列由原始数据转换成的Z分数。需要强调,只有服从正态分布的数据转换成标准正态分布才有意义。普通正态分布转换成标准正态分布后,原始数据在标准正态分布中所处的位置即为Z分数。Z分数的计算公式就是普通正态分布转换为标准正态分布的公式:现在有一份关于大学生网络使用情况的调查问卷,收集了100份有效回复。部分问卷和收集数据如下图所示。我们以其中的年龄变量为例,说明如何用SPSS提供的描述统计功能了解问卷回答者年龄的情况。1、分析步骤①下载问卷数据。打开数据后,选择菜单【分析】-【描述统计】-【描述】,打开描述统计对话框,如下图所示,将【感受1】到【感受10】选入【变量】,并选左下方的【将标准化得分另存为变量】。②点击【选项】按钮,在跳出的对话框中,选择所需的描述统计量。这里为了展示,将所有的统计量都选中。③点击确定,输出结果。2、结果解释①描述性统计表每一行为选中的一个变量,每一列表示一个统计量。一目了然,分析者能够非常方便的从中了解不同变量的数据。②Z分数数据了解了何为描述统计之后,我们再来看看医学数据不同变量分类间的区别及在spss中的录入方法不同的医学数据对应有不同的变量类型,医学统计及数据分析研究中,只有正确的区分数据变量类型,才能正确的选择合适的统计分析方法。1、计量资料计量资料又称定量资料或数值变量资料,其变量值是定量的,反映了数值大小,一般有度量衡单位。根据观察值连续与否,可分为连续型变量或离散型变量。连续型变量可以在实数范围内任意取值,如身高、体重、血压、血脂等;而离散型变量只取整数值,如某医院每天的接诊人数等。2、计数资料计数资料又称定性资料或无序分类资料,其变量值是定性的,表现为互不相容的属性或类别,为某种属性或类别的分组计数。根据观察值的分组数量,可分为二分类变量或多分类变量。二分类变量所报告的两种分类一般互相对立,互不相容。如人的性别分为男性和女性,检测结果为阳性和阴性等。而多分类变量一般所报告的分类互不相容,如人的血型分为A型、B型、AB型和O型等。3、等级资料等级资料又称为半定量资料或有序分类变量,其变量值是半定量的,表现为等级大小或属性程度,为有程度或强度大小的计数。如某病人的恢复情况分为痊愈、好转、平稳、恶化等。我们以一份患者患病的预处理方案效果数据为例,具体阐述数据类型及其赋值方法。1、数据赋值下表中,包括性别、年龄、年龄分组、ATG剂型、疾病、发病至移植时间、预处理方案、BU剂量、EVB感染1和感染2共10个变量。(2)赋值说明①上述变量中,“性别”、“发病至移植时间”、“EVB感染2”均为二分类变量,可以赋值0/1或1/2;“ATG剂型”、“疾病”“预处理方案”、“BU剂量”均为多分类变量,可以赋值1/2/3或者0/1/2,这些数字均指表示类别的不同,不表示数值大小。②“年龄”为计量资料,不需赋值。③“EVB感染1”为等级资料,数字1/2/3/4表示EVB感染的严重程度,数值越小,感染越轻。④需要注意的是,以上变量“年龄”、“EVB感染”的数据类型根据不同需要,进行了不同的分类,从而决定了两个变量的不同数据类型和赋值。⑤“备注”列为变量在SPSS中的数据类型的对应勾选项,其中,“度量”表示计量资料,“名义”表示计数资料,“有序”表示等级资料。医学统计学,是统计学在医学领域的应用学科。我们应从基本概念→习题理解→案例分析→软件学习→实际数据分析的顺序入手,后续我们还会为您更新更多的医学统计学相关内容,感兴趣的朋友可以扫描下方二维码关注我们。https://mp.weixin.qq.com/s/pEqkYesPLO5P8XjY7KEugg
本文内容来自《中华流行病学杂志》2019年第40卷第1期,作者为严若华和彭晓霞教授,原题目为《医学期刊统计报告要求的详述与解读》(感谢作者彭晓霞教授的授权)。该文结合已发表的研究论文,从研究设计、统计分析与结果报告3方面涉及的统计学问题入手,进行逐条解读,以阐明医学论文应达到的统计报告要求。研究设计部分详见:。下文主要分享统计分析和结果报告要求。统计分析1、缺失值的处理:缺失值是人群研究中不可避免的问题,其处理方式的差异可能在不同程度上引入偏倚,因此,详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如,瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略,包括:将二分类结局中的缺失值视为未发生事件;将生物标志物和心电图测量中的缺失值进行多重填补(multiple imputation);为了证明缺失值处理的合理性和填补结果的稳定性,研究还比较了多重填补与完整数据(complete-case)分析的结果。2、数据的预处理:实施统计分析之前往往需要将原始数据进行预处理,如:对连续变量进行函数转换使其更接近正态分布,基于原始数据构建衍生变量,将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据,瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述:确定统计分析使用的变量,并针对每一个变量的分布特征进行描述,是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求,但作者往往套用常用方法,如:连续变量符合正态分布时,采用均数(标准差)描述,否则采用中位数(四分位间距)描述;分类变量采用频数(百分比)描述等。事实上,应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如,CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征,而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析(primary analysis):指针对研究结局的统计分析,是研究论文的核心证据。因此,医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中,应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。例如,瑞舒伐他汀试验采用意向性分析(intention to treat)数据集,通过计算OR值及其95%CI来评价术后房颤发生风险在试验组与对照组间的差异,置信区间包含1说明研究结果不拒绝原假设,即两组的术后房颤发生风险相等;考虑到重复测量的需要,采用协方差分析比较两组术后6~120 h肌钙蛋白Ⅰ释放曲线下面积的对数,并计算其均值的绝对差异及其95%CI来评价围术期心肌损伤情况在试验组与对照组间的差异,置信区间包含0说明研究结果不拒绝原假设,即两组的围术期心肌损伤情况相同。在观察性研究中,通常采用多因素统计模型来控制混杂,此时应明确定义因变量、自变量及潜在的混杂变量或效应修正因子,描述变量转换的方法和变量筛选的过程,并预先说明论文报告哪一种统计模型的结果。如果采用读者并不熟悉的统计分析方法,还应详细介绍该统计分析方法的原理。例如,CKB采用Cox比例风险回归模型分析水果摄入与心血管事件之间的关联,因变量为心血管事件,包括心血管死亡、主要冠状动脉事件、出血性卒中、缺血性卒中、其他缺血性心脏病和其他脑血管病;自变量为水果摄入频率,即每天、4~6 d/周、1~3 d/周、每月、极少或从不;分层变量为年龄、性别和地区;同时模型调整了基线的混杂变量;为了帮助多个暴露类别之间的比较,研究采用浮动绝对风险的方法(floating-absolute-risk method)估计危险比的变异程度,并与传统的不浮动绝对风险的方法进行比较。5、其他分析:如果研究在主要分析之外,还进行了其他辅助分析(ancillary analysis),如敏感性分析(sensitivity analysis)或亚组分析(subgroup analysis),应在统计分析部分给予充分说明。如果是事后分析(post-hoc analysis),应考虑潜在的Ⅰ类错误膨胀问题。例如,瑞舒伐他汀试验在主要分析的基础上,根据基线年龄(≤60岁或>60岁)、性别、他汀用药史(是或否)等变量分亚组比较主要结局指标在试验组与对照组间的差异。但是,由于该亚组分析在研究设计时已预先设定(pre-specify),因此无需对显著性水平进行调整。6、多重比较:除了常规使用的统计分析方法外,作者还应特别注意多重比较的问题。例如,瑞舒伐他汀试验设置了两个平行的主要结局指标:术后房颤和围术期心肌损伤,原则上应调整显著性水平以控制总体Ⅰ类错误概率。然而,由于研究假设两个主要结局指标同时达到组间差异有统计学意义才算试验阳性,且在估算样本量时已对此给予了充分考虑,因此无需考虑多重检验的问题(without allowance for multiple testing)。7、Ⅰ类错误概率与统计软件:医学论文应对统计检验的Ⅰ类错误概率(单/双侧)及统计软件进行说明。例如,两部分数据分别采用SAS 9.3和Stata 13.0软件进行分析,所有检测均为双侧检验,P<0.05为差异有统计学意义。结果报告1、研究对象的纳入流程:医学期刊推荐使用研究对象流程图来描述研究对象的纳入流程、研究实施过程中的失访或无应答、以及最终的统计分析数据集等信息,见图 1。研究对象流程图的展示可以为研究对象是否存在选择偏倚、研究结果的可外推范围等提供重要证据。
打开网易新闻 查看精彩图片
图1 瑞舒伐他汀试验的研究对象流程图注:a患者可能被多种原因排除;b接受手术患者的百分比;所有生化测量的缺失值百分比范围为5.0%~7.5%,除了sCD40L(17.5%)2、基线数据比较:医学期刊通常要求分组报告基线变量的分布特征,但在组间比较时可以不做假设检验,不标注P值,见表 2。因为,在大样本研究中,绝对差异的微小改变都可能造成统计学显著,而该差异本身并不一定具有临床意义。另一方面,在样本量较小的随机对照试验中,即便采用了严格的随机分组策略,仍会有个别变量无法达到组间可比,此时,如果预先对基线数据进行组间比较,作者可能会选择性不报告组间差异有统计学意义的变量,而导致选择性报告偏倚。表2. 瑞舒伐他汀试验的研究对象基线特征(节选)
打开网易新闻 查看精彩图片
3、效应估计与置信区间:医学论文在报告统计结果时不应仅依赖于P值,还应给出量化的效应估计结果,同时评价其测量误差或不确定性,如报告95%CI(如有必要,可根据显著性水平对置信系数进行调整。因为P值无法反映关于效应大小和估计精度的重要信息,只能说明统计学意义,而损失对临床意义的表达。SAMPL指南建议研究者给出临床意义的最小界值,以帮助读者根据点估计及置信区间判断研究的临床意义。中华流行病学杂志则提出,当P值小于Ⅰ类错误概率时,应说“组间差异有统计学意义”,而不应说“组间有显著性差异”。例如,CKB在评价研究因素对结局的发生风险时,报告了危险比及其95%CI。4、结果与方法一一对应:医学论文应保证研究结果与方法一一对应,如:在方法中介绍了基线的统计描述与组间比较的具体方法,应在结果中对基线数据进行相应的描述与比较;在方法中说明了研究的主要分析方法,应在结果中对主要结局指标的估计或假设检验结果进行报告;在方法中提出了其他分析,包括敏感性分析、亚组分析等,应在结果中罗列出相应内容。例如,瑞舒伐他汀试验在方法部分说明研究将对主要结局指标、次要结局指标分别进行组间比较,并对主要结局指标进行亚组分析;在结果部分则依次报告了相应结果。5、伤害:需要注意的是,无论是试验性研究还是观察性研究,都有可能存在伤害研究对象的风险。医学论文应如实报告研究过程中发生的伤害。例如,噻托溴铵试验报告了试验组与对照组的不良事件发生情况:除了轻度不良事件(如口咽不适)外,其他不良事件、严重不良事件和死亡发生率的组间差异均无统计学意义。6、P值的报告规范及保留小数位数:不同医学期刊对P值的报告规范有不同要求。例如,NEJM规定,除非研究设计需要进行单侧检验,如非劣效性试验,其他报告的P值均应为双侧。P值大于0.01应报告小数点后两位;P值在0.01到0.001之间应报告小数点后三位;P值小于0.001应报告为P<0.001。在分层分析中,只需报告层间比较差异有统计学意义的P值,而不需报告所有层间两两比较的P值。CMJ(Engl)规定,应使用大写斜体,并报告P值的精确值(如果P值在0.001~0.05之间时)。中华医学杂志规定,应尽可能给出具体的P值。中华流行病学杂志规定,应给出P值的实际数值,并保留3位小数。在使用不等式表示P值时,选用P>0.05、P<0.05和P<0.01即可满足需求,无须细分P<0.001或P<0.000 1。可以看出,目前医学期刊对P值的报告尚无统一规范,导致一些研究仅给出P值与显著性水平之间的不等关系,而不体现量化的数值(如P>0.05);一些研究则盲目追求P值的精度,而保留不必要的小数位数(如P=0.0357)。7、统计表规范:统计表可以简明、高效地展示研究的关键信息。ICMJE对统计表的要求包括:依照正文的引用顺序连续编码,并确保每个表都在正文中被引用;设置简短清晰的表标题,使读者可以直接理解表中内容而无需阅读上下文;设置简短清晰的纵标目与横标目,并在脚注中解释标目涉及的细节问题;在脚注中解释所有表中的非标准缩写,同时明确变异特征,如标准差或标准误;如果表中用到其他来源的已发表或未发表的数据,应获取许可并充分引用,见表 2。8、统计图规范:统计表用于展示数据的精确数值,而统计图则提供对数据的全面评估。ICMJE对统计图的要求包括:依照正文的引用顺序连续编码,并确保每张图都在正文中被引用;如果图片已经发表,应获取许可并充分引用;如果存在符号、箭头、数字或字母用于标记图片,需在图例中逐一解释,见图 1。不同杂志还会对图片的格式和大小进行进一步要求。统计图表达方式的创新有助于读者快速掌握研究的核心结果。9、图表内容不重复:医学论文的图表内容不应重复,且不应在文中复述图表中的所有数据;应仅强调或总结最重要的结果。例如,瑞舒伐他汀试验在结果部分依次用图表展示了基线、主要结局指标及亚组分析、共同主要结局指标和次要结局指标的相关内容。总结本文从研究设计、统计分析、结果报告3方面涉及的统计学问题入手,对医学期刊的统计报告条目及内容进行归纳,并借助试验性研究和观察性研究论文,对其进行逐条解读,以阐明医学论文统计报告应达到的基本要求。本文发现,英文医学期刊普遍参考ICMJE提出的“医学期刊学术著作实施、报告、编辑和发表建议”及EQUATOR协作网发布的针对多种研究设计类型的报告声明等规范性文件,对于医学研究的统计报告已有详细规定。而中文医学期刊通常采用编辑部自行刊发的对统计学方 法的要求,虽然对统计分析的格式和内容有具体说明,但并不充分,建议根据国际规范完善现行的统计报告要求。需要注意的是,本文介绍的统计报告条目是不同研究设计类型均可能涉及的共性问题,当研究者在进行论文撰写时,应根据自身的研究设计类型、研究目的与学术期刊要求选择参考适用的条目,而非逐一报告。本文有望帮助研究者了解医学研究的统计报告要求,从而切实提高医学论文的统计报告质量。内容来源:严若华,彭晓霞. 医学期刊统计报告要求的详述与解读[J]. 中华流行病学杂志, 2019, 40(1): 99-105.【加入中医药交流群】添加小编微信邀请加入,也可由群友邀请加入,欢迎广大老师、朋友加入我们。小编微信:【往期推荐】【天然产物可投-中科院1区-IF近10】南京中医药大学:姜黄素减轻肝纤维化的作用机制2021-01-18诺华视频Drug discovery:从药物研发到上市过程2021-01-18【年刊近800-Q1分区】暨南大学:基于网络药理学探讨柴胡疏肝散经核受体对非酒精性脂肪肝大鼠的影响2021-01-16绘制三维响应曲面(用于两药互作、提取工艺优化等)——Matlab软件编程2021-01-16PNAS:中科院联合美国癌症所团队发表雷公藤甲素抗癌机制,可以诱导IDH1突变癌细胞自取灭亡2021-01-15用Graphpad软件绘制ROC曲线!2021-01-15科研人物:颜宁在美国又获大奖,我们真的失去了一位伟大的科学家2021-01-15【年刊800+IF6.3+期刊文章推荐】葛根芩连汤抗结直肠癌如何发表在IF6.3+期刊2021-01-14首个新机制流感药物!罗氏超级流感药Xofluza欧盟获批2021-01-14用Matlab软件绘制一元二次回归方程曲线2021-01-13【药理可投-无版面费】郑州大学一院:CircNOL10抑制乳腺癌的进展通过捕捉miR-767-5p的多层次机制研究2021-01-12推荐几个实用的科研网站—包括化学/中药数据库,选刊和基金查询2021-01-12如沐风科研 (Rumfer)公众号:由浙江中医药大学、中国药科大学、江西中医药大学以及福安药业和浙江省疾控中心的硕博士组成,主要发布药物研发、生产及注册,科研实验及前沿咨讯等相关信息。欢迎广大朋友老师关注我们,您的分享和关注是对我们的最大鼓励。

我要回帖

更多关于 医学统计学怎么学 的文章

 

随机推荐