《生态研究统计学分析研究.docx》由会员分享,可在线阅读,更多相关《生态研究统计学分析研究.docx(17页珍藏版)》请在第一文库网上搜索。
1、摘要工在向生态学家教授统计学时,本文的主要作者注意到了常见的统计问题。如果选择在进行这些课程之前所获得的工作(包括科学论文)的随机样本,则一半可能包含违反所采用的统计技术的基本假设。2 .某些侵权行为对结果或生态结论影响不大;还有一些增加了I型或I1型错误,可能导致错误的生态结论。通过应用更好的数据探索,可以避免大多数此类违规情况。在应用生态学中,这些问题尤其棘手,因为在应用生态学中,管理和政策决策经常受到威胁。3 .在这里,我们提供了用于数据探索的协议;讨论用于检测离群值,方差异质性,共线性,观察的依存性,相互作用的问题,多元分析中的双零,广义线性建模中的零膨胀以及因变量和自变量之间的正确关
2、系类型的当前工具;并提供有关如何解决这些问题的建议。我们还将解决对正常性的误解,并提供有关数据转换的建议。4 .数据探索避免了I型和I1型错误以及其他问题,从而减少了做出错误生态结论和不良建议的机会。因此,对于基于统计分析的良好质量管理和政策至关重要。介绍在过去的三十年中,应用生态学家可以使用的统计工具有了巨大的扩展。可用技术的简短列表包括线性回归,广义线性(混合)建模,广义加性(混合)建模,回归树和分类树,生存分析,神经网络,多变量分析及其所有方法,例如主成分分析(PCA),规范对应分析(CCA),(非)度量多维标度(NMDS),各种时间序列和空间技术等。尽管其中一些技术已经存在了一段时间,
3、但快速计算机和免费软件的开发如作为R(RDwHopMe八七COIreTeaMZOOQ),从而可以将常规统计技术常规应用于任何类型的数据。本文与这些方法无关。相反,它是至关重要的步骤,应该但不经常在应用之前。所有统计技术都有一个共同的问题,即“垃圾进,垃圾出1例如,在某些方法中,单个异常值可以确定最终结果和结论。异质性(变异差异)可能会在线性向归和方差模型分析以及某些多元方法(HUSertgIqq4)中引起严重的麻烦。当基本问题是确定哪些协变量正在驱动系统时,分析中最困难的方面可能是如何处理共线性(协变量之间的相关性),这会增加I1型错误(即,在拒绝原假设时无法拒绝它)是不正确的)。在应用于生态
4、群落数据的多元分析中,双零的存在(例如,两个物种在不同地点共同缺失)有助于某些技术(例如PCA)的相似性,而对其他技术则没有相似性。还有其他多变量技术对具有聚集分布和低丰度的物种(例如CCA)敏感。在单变量分析技术(例如用于计数数据的广义线性建模(G1M)中,响应变量的零膨胀可能会导致参数估计值出现偏差(DaMee八&丁片“力.1998)。当多元技术使用置换方法获得产假时,例如在CCA和冗余分析(RDA,terBsak和VwdOnSChotGqqS)或M八te检验(1egenre&1egehdrZqq8)中,观测值之间的时间或空间相关性会增加1型。错误(在原假设为真时拒绝原假设)。应用于时间或
5、空间相关观测的回归类型技术也是如此。亳无疑问,最常用和滥用的技术之一就是线性回归。通常,此技术与线性模式和正态性相关。这两个概念经常被误解。线性回归非常适合拟合非线性关系,例如通过使用交互作用或二次项来实现wg&PeckIqq2)。线性回归中的术语”线性”是指参数在模型中的使用方式,而不是指建模的关系类型。知道我们在响应变量和解释变量之间是否存在线性或非线性模式对于我们如何应用线性回归和相关技术至关重要。在包含交互之前,我们还需要知道数据是否平衡。例如述“,/0和Shtk(JDO7)使用性别,地点和月份的协变量来建模就鱼的性腺躯体指数(性腺重量相对于总体重)。但是,由于采样不均衡,因此并未在每
6、个月的每个位置都对男女进行测量。实际上,数据是如此不平衡,以至于仅分析数据的一个子集并避免包含某些交互更有意义。有了这么多潜在的陷阱,要确保科学家不会发现错误的协变量效应(/型错误),错误地消除具有特定协变量的模型(型错误)或仅产生由少数有影响力的观察结果确定的结果,就要求在进行任何统计分析之前,应先进行详细的数据探索。本文的目的是为识别潜在问题的数据探索提供协议(图上)。根据我们的经验,数据探索最多可占用5。的分析时间。尽管数据探索是任何分析的重要组成部分,但重要的是将其与假设检验明确分开。根据研究人员对系统的生物学理解,先验决定要测试的模型(BUrnham&Anderson2002)。当这
7、种理解非常有限时,可以将数据探索用作假设生成活动,但这与我们在本文中提倡的过程根本不同。使用数据探索的方面来搜索模式(数据挖掘)可以为将来的工作提供指导,但应非常谨慎地查看结果,并应避免对更广泛的人群进行推断。相反,应基于生成的假设和进行独立测试收集新数据。当以这种方式使用数据探索时,应清楚说明所使用的过程和任何推断的局限性。在整篇论文中,我们集中于图形工具的使用(ChatfieId1998;Ge1manPasarica&Dodhia2002),但是在某些情况下,也可以对正态性或同质性进行测试。然而,统计文献对某些测试提出了警告,并提倡图形工具(MomHomerV&Peck1992;DraPe
8、r&Smith1998;QUinn&Kacwh2002)。莱拉(2009)给出了不进行正态性初步测试的七个原因,其中包括:大多数基于正态性的统计技术都可以抵制违规;对于更大的数据集,中心极限理论意味着近似正态性;对于小样本,测试功效低;对于较大的数据集,测试对小偏差敏感(与中心极限理论相反)。所有图形均使用软件包R(RDeVeIOPmemCoreTeam2008)制作。附录S1(支持信息)和http:WWW中提供了本文中使用的所有R代码和数据。步骤1:Y和X中有离群值吗?在某些统计技术中,结果受异常值支配。其他技术会像对待其他任何价值一样对待它们。例如,当结果不是二值时,离群值可能会导致Poi
9、SSc)nG1M或二项式G1M过度分散(Hi1be2007)。相反,在使用JaCCard索引的NMDS中(1eHendre&1egendre1998),观测本质上被视为存在和不存在,因此异常值不会以任何特殊方式影响分析结果。因此,重要的是,研究人员必须了解特定技术如何应对异常值。目前,我们将异常值定义为与大多数观测值相比具有相对较大或较小值的观测值。箱线图是通常用于离群值检测的图形工具。它可视化数据的中位数和范围。根据所使用的软件,中位数通常表示为水平线,其中25%和75%的四分位数在中位数周围形成一个包含一半观测值的框。然后从框中绘制线,这些线以外的任何点都被标记为离群值。一些研究人员常规(
10、但错误地)删除了这些观察结果。图近显示了使用1295次形态计量变量观测结果(盐沼麻雀AmmodsmusCaUc1aCUtUS的翼长、Gjerdrum,EIPhiCk和RUbega2008)。该图使人们相信(也许我们稍后会发现这是错误的)七个异常值。克利夫兰点图(CIeVe1and1993)是另一个非常有用但极易被忽视的图形化工具,用于可视化离群值。这是一个图表,其中绘制了观测值的行数与观测值的关系,从而提供了比箱线图更为详细的信息。突出在右侧或左侧的点是比大多数观察值大或小的观察值,需要进一步研究。如果存在此类观察,则重要的是检查原始数据是否有错误并评估观察值是否合理。图巫显示了用于麻雀翼长数
11、据的克利夫兰点图;请注意,通过箱线图确定的观察结果毕竟不是特别极端。图2b中的“向上趋势只是由于电子表格中的数据按权重排序而出现。观察到的机翼长度约为68毫米,在图的一半左右处向左突出。该值并不比其他值大很多,因此我们不能说这是一个离群值。图且显示了所有测量的形态计量变量的多面板克利夫兰点图。请注意,某些变量具有一些相对较大的值。这样的极端值可能表示真实的测量误差(例如,一些符合“观察者分心M。阴an20分的特征),从而使观察者的眼睛在测量刻度上被误认为是错误的数字)。请注意,不应试图争论这么大的价值可能是偶然发生的。如果是这样,那么中间值也应该是偶然生成的,但是没有一个。(一种有用的做法是从
12、适当的分布(例如正态分布)中重复生成相等数量的随机观测值,并确定极点数与经验数据的比较。)当最可能的解释是极值观察值是度量(观察者)错误,应将其删除,因为它们的存在很可能会主导分析。例如,我们对整个麻雀数据集进行了判别分析,以查看观察者之间的观察结果是否有所不同,只2Eo图3在图形查看器中打开PowerPoint在将观测值从最重到最轻排序后(因此权重图的形状),从麻雀数据中获取六个形态计量变量的多面板克利夫兰点图。轴标签被抑制以改善视觉效果。请注意,某些变量具有一些异常小的值或大的值。还可以按子组(例如观察者或性别)绘制观察值或将平均值叠加,以查看数据子集之间是否存在差异。到目前为止,我们已经
13、将松散定义为“异常值,即从其余部分突出的观察值。一种更严格的方法是考虑异常观察是否对分析(例如,估计的参数)产生了不适当的影响。我们在响应变量和协变量中的有影响的观察之间进行区分。后者的一个例子是当物种丰度被建模为温度的函数时,几乎所有温度值都在15到20之间,而25。C是其中之一。通常,这不是理想的采样设计,因为在20-25。C的范围内采样不足。但是,在现场研究中,可能只有一次机会可以对较高温度进行采样。如果样本量较大,则可能会忽略此类观察,但是,由于数据集相对较少,因此减少样本量可能是不希望的,尤其是在其他观察结果与其他解释变量存在异常的情况下。如果省略这些观察结果不是一种选择,请考虑转换
14、解释变量。在回归类型技术中,响应变量中的异常值要处理起来更复杂。转换数据是一种选择,但是由于响应变量是最主要的考虑因素,因此最好选择一种使用概率分布的统计方法,该概率分布对于较大的平均值(例如,连续数据采用伽马;对于连续数据采用泊松或负二项式)允许较大的变化。计算数据),因为这样做可以使我们处理原始数据。对于多元分析,此方法不是一种选择,因为这些方法不是基于概率分布的。相反,我们可以使用其他关联度量。例如,欧几里得距离对大数值相当敏感,因为它基于毕达哥拉斯定理,而和弦距离则权重大数值(1eRendre&1eeendre1998)Q一些统计软件包附带了一整套诊断工具,用于识别有影响的观察结果。例
15、如,线性回归的库克统计量(FC)X2008)给出了回归参数变化的信息,因为每个观测值是依次且个别地被省略的。这种工具的问题在于,当存在多个具有相似值的“异常值时,将不会检测到它们。因此,在进行统计分析之前,应该使用本文讨论的图形工具调查此类观测的存在。最终,由生态学家决定如何处理异常值。协变量的离群值可能是由于不良的实验设计而引起的,在这种情况下,放弃观察值或变换协变量是明智的选择。观测者和测量误差是删除观测值的有效依据。但是,响应变量中的离群值可能需要更精细的方法,尤其是当它们代表被测变量的真实变化时。记录详细的现场或实验记录对于在发生异常事件时进行记录特别有用,从而提供客观信息以重新检查异
16、常值。无论如何解决该问题,重要的是要知道是否存在异常值并报告如何处理这些异常值;数据探究可以做到这一点。步骤2:我们是否具有均一的方差?方差的均质性是方差分析(ANOVA),其他回归相关模型以及判别分析等多变量技术中的重要假设。图_生显示了哈德逊河Wit(UrnOSa60emst7c)的食物摄入量的有条件褶线图),一种长途迁徙水鸟,在阿根廷的泥滩上(E.1eno,未公开数据)。为了对这些数据进行方差分析,以检验平均摄入率是否因性别,时间段或这两个变量的组合(即相互作用)的不同而不同,我们必须假设(i)来自性别的观察结果的变化相似;(ii)三个时间段的观测值变化相似;(Hi)性别在三个时间段之间的变化相似。在这种情况下,男性冬季数据的变化似乎较小,而夏季男性数据的变化较大。但是,变化中的细微差异无需担心。更严重的违反行为的例子可以在ZUU