HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    sem和sd转换(sd和se的转换)

    发布时间:2023-04-14 11:59:24     稿源: 创意岭    阅读: 73        

    大家好!今天让创意岭的小编来大家介绍下关于sem和sd转换的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008

    本文目录:

    sem和sd转换(sd和se的转换)

    一、科学论文里经常出现的Means and s.e.m是什么意思

    mean±SD或 mean±SEM平均数±标准差或标准误

    standard error of measurement

    The standard deviation (SD) represents variation in the values of a variable, whereas the standard error of the mean (SEM) represents the spread that the mean of a sample of the values would have if you kept taking samples. So the SEM gives you an idea of the accuracy of the mean, and the SD gives you an idea of the variability of single observations. The two are related: SEM = SD/(square root of sample size).

    简单地说就是平均数的抽样误差,反映平均数的抽样准确性,国内用标准偏移值SD的较多,SEM=SD除以(样本数的平方根)……

    二、差异分析用SD还是SEM

    sd

    如果你的结果的方差比较小的话,用sd即可,如果稍微有些大,sem可以让误差线看起来小一些。

    三、meansd误差很大可以用sem吗

    meansd误差很大可以用sem。根据查询相关资料,sd误差很大说明不适合使用标准差描述数据的差异,可以使用sem计算,误差线更小,能反映实际情况。

    四、标准差和标准误

    标准差,缩写为S.D., SD, 或者 s (就是为了把人给弄晕?),是描述数据点在均值(mean)周围聚集程度的指标。

    如果把单个数据点称为“ X i ,” 因此 “ X 1 ” 是第一个值,“ X 2 ” 是第二个值,以此类推。均值称为“ M ”。初看上去Σ( X i - M )就可以作为描述数据点散布情况的指标,也就是把每个 X i M 的偏差求和。换句话讲,是(单个数据点—数据点的平均)的总和。

    看上去挺有逻辑性的,但是它有两个缺点。

    第一个困难是:上述定义的结果永远是0。根据定义,高出均值的和永远等于低于均值的和,因此它们相互抵消。可以取差值的绝对值来解决(也就是说,忽略负值的符号),但是由于各种神秘兮兮的原因,统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方,因为任何数的平方肯定是正的。所以,我们就有Σ( X i - M ) 2

    另外一个问题是当我们增加数据点后此等式的结果会随之增大。比如我们手头有25个值的样本,根据前面公式计算出SD是10。如果再加25个一模一样的样本,直觉上50个大样本的数据点分布情况应该不变。但是我们的公式会产生更大的SD值。好在我们可以通过除以数据点数量 N 来弥补这个漏洞。所以等式就变成Σ( X i - M ) 2 / N .

    根据墨菲定律,我们解决了两个问题,就会随之产生两个新问题。

    第一个问题(或者我们应该称为第三个问题,这样能与前面的相衔接)是用平方表达偏差。假设我们测量自闭症儿童的IQ。也许会发现IQ均值是75, 散布程度是100 个IQ点平方。这IQ点平方又是什么东西?不过这容易处理:用结果的平方根替代,这样结果就与原来的测量单位一致。所以上面的例子中的散布程度就是10个IQ点,变得更加容易理解。

    最后一个问题是目前的公式是一个有偏估计,也就是说,结果总是高于或者低于真实的值。解释稍微有点复杂,先要绕个弯。在多数情况下,我们做研究的时候,更感兴趣样本来自的总体(population)。比如,我们探查有年轻男性精神分裂症患者的家庭中的外现情绪(expressed emotion,EE)水平时,我们的兴趣点是所有满足此条件的家庭(总体),而不单单是哪些受研究的家庭。我们的工作便是从样本中估计出总体的均值(mean)和SD。因为研究使用的只是样本,所以这些估计会与总体的值未知程度的偏差。理想情况下,计算SD的时候我们应当知道每个家庭的分值(score)偏离总体均值的程度,但是我们手头只有样本的均值。

    根据定义,分值样本偏离样本均值的程度要小于偏离其他值,因此使用样本均值减去分值得到的结果总是比用总体均值(还不知道)减去分值要小,公式产生的结果也就偏小(当然N很大的时候,这个偏差就可以忽略)。为了纠正这个问题,我们会用N-1除,而不是N。总之,最后我们得到了修正的标准差的(估计)公式(称为样本标准差):

    顺带一下,不要直接使用此公式计算SD,会产生很多舍入误差(rounding error)。统计学书一般会提供另外一个等同的公式,能获得更加精确的值。

    现在我们完成了所有推导工作,这意味着什么呢?

    假设数据是正态分布的,一旦知道了均值和SD,我们便知道了分值分布的所有情况。对于任一个正态分布,大概2/3(精确的是68.2%)的分值会落在均值-1 SD和均值+1 SD之间,95.4%的在均值-2 SD 和均值+2 SD之间。比如,大部分研究生或者职业院校的入学考试(GRE,MCAT,LSAT和其他折磨人的手段)的分数分布(正态)就设计成均值500,SD 100。这意味68%的人得分在400到600之间,略超过95%的人在300到700之间。使用正态曲线的概率表,我们就能准确指出低于或者高于某个分数的比例是多少。相反的,如果我们想让5%的人淘汰掉,如果知道当年测试的均值和SD,依靠概率表,我们就能准确划出最低分数线。

    总结一下,SD告诉我们分值围绕均值的分布情况。现在我们转向标准误差(standard error)。

    前面我提到过大部分研究的目的是估计某个总体(population)的参数,比如均值和SD(标准方差)。一旦有了估计值,另外一个问题随之而来:这个估计的精确程度如何?这问题看上去无解。我们实际上不知道确切的总体参数值,所以怎么能评价估计值的接近程度呢?挺符合逻辑的推理。但是以前的统计学家们没有被吓倒,我们也不会。我们可以求助于概率:(问题转化成)真实总体均值处于某个范围内的概率有多大?(格言:统计意味着你不需要把话给说绝了。)

    回答这个疑问的一种方法重复研究(实验)几百次,获得很多均值估计。然后取这些均值估计的均值,同时也得出它的标准方差(估计)。然后用前面提到的概率表,我们可估计出一个范围,包括90%或者95%的这些均值估计。如果每个样本是随机的,我们就可以安心地说真实的(总体)均值90%或者95%会落在这个范围内。我们给这些均值估计的标准差取一个新名字:均值的标准误差(the standard error of the mean),缩写是SEM,或者,如果不存在混淆,直接用 SE 代表。

    但是首先得处理一个小纰漏:重复研究(实验)几百次。现今做一次研究已经很困难了,不要说几百次了(即使你能花费整个余生来做这些实验)。好在一向给力的统计学家们已经想出了基于单项研究(实验)确定 SE 的方法。让我们先从直观的角度来讲:是哪些因素影响了我们对估计精确性的判断?一个明显的因素是研究的规模。样本规模 N 越大,反常数据对结果的影响就越小,我们的估计就越接近总体的均值。所以, N 应该出现在计算 SE 公式的分母中:因为 N 越大, SE 越小。类似的,第二因素是:数据的波动越小,我们越相信均值估计能精确反映它们。所以, SD 应该出现在计算公式的分子上: SD 越大, SE 越大。因此我们得出以下公式:

    (为什么不是 N ? 因为实际是我们是在用 N 除方差 SD 2 ,我们实际不想再用平方值,所以就又采用平方根了。)

    所以, SD 实际上反映的是数据点的波动情况,而 SE 则是均值的波动情况。

    前面一节,针对 SE ,我们提到了某个值范围。我们有95%或者99%的信心认为真实值就处在当中。我们称这个值范围为“置信区间”,缩写是CI。让我们看看它是如何计算的。看正态分布表,你会发现95%的区域处在-1.96 SD 和+1.96 SD 之间。回顾到前面的GRE和MCAT的例子,分数均值是500, SD是100,这样95%的分数处在304和696之间。如何得到这两个值呢?首先,我们把 S D乘上1.96,然后从均值中减去这部分,便得到下限304。如果加到均值上我们便得到上限696。CI也是这样计算的,不同的地方是我们用 SE 替代 SD 。所以计算95%的CI的公式是: 95%CI= 均值± ( 1.96 x SE )。

    好了,现在我们有 SD , SE 和CI。问题也随之而来:什么时候用?选择哪个指标呢?很明显,当我们描述研究结果时, SD 是必须报告的。根据 SD 和样本大小,读者很快就能获知 SE 和任意的 CI 。如果我们再添加上SE和CI,是不是有重复之嫌?回答是:“YES”和“NO”兼有。

    本质上,我们是想告之读者通常数据在不同样本上是存在波动的。某一次研究上获得的数据不会与另外一次重复研究的结果一模一样。我们想告之的是期望的差异到底有多大:可能波动存在,但是没有大到会修改结论,或者波动足够大,下次重复研究可能会得出相反的结论。

    某种程度上来讲,这就是检验的显著程度,P level 越低,结果的偶然性就越低,下次能重复出类似结果的可能性越高。但是显著性检验,通常是黑白分明的:结果要么是显著的,要么不是。如果两个实验组的均值差别只是勉强通过了P < 0.05的红线,也经常被当成一个很稳定的结果。如果我们在图表中加上CI,读者就很容易确定样本和样本间的数据波动会有多大,但是我们选择哪个CI呢?

    我们会在图表上加上error bar(误差条,很难听),通常等同于1个 SE 。好处是不用选择SE或者CI了(它们指向的是一样的东西),也无过多的计算。不幸的这种方法传递了很少有用信息。一个error bar (-1 SE,+1 SE )等同于68%的CI;代表我们有68%的信心真的均值(或者2个实验组的均值的差别)会落在这个范围内。糟糕的是,我们习惯用95%,99% 而不是68%。所以让忘记加上 SE 吧,传递的信息量太少了,它的主要用途是计算CI。

    那么把error bar加长吧,用2个 SE 如何?这好像有点意思,2是1.96的不错估计。有两方面的好处。首先这个方法能显示95%的CI,比68%更有意义。其次能让我们用眼睛检验差别的显著性(至少在2个实验组的情况下是如此)。如果下面bar的顶部和上面bar的底部没有重叠,两个实验组的差异必定是显著的(5%的显著水平)。因此我们会说,这2个组间存在显著差别。如果我们做t-test,结果会验证这个发现。这种方法对超过2个组的情况就不那么精确了。因为需要多次比较(比如,组1和组2,组2和组3,组1和组3),但是至少能给出差别的粗略指示。在表格中展示CI的时候,你应该给出确切的数值(乘以1.96而不是2)。

    SD 反映的是数据点围绕均值的分布状况,是数据报告中必须有的指标。 SE 则反映了均值波动的情况,是研究重复多次后,期望得到的差异程度。 SE 自身不传递很多有用的信息,主要功能是计算95%和99%的CI。 CI是显著性检验的补充,反映的是真实的均值或者均值差别的范围。

    一些期刊已把显著性检验抛弃了,CI取而代之。这可能走过头了。因为这两种方法各有优点,也均会被误用。比如,一项小样本研究可能发现控制组和实验组间的差别显著(0.05的显著水平)。如果在结果展示加上CI,读者会很容易看到CI十分宽,说明对差别的估计是很粗糙的。与之相反,大量鼓吹的被二手烟影响的人数,实际上不是一个均值估计。最好的估计是0,它有很宽的CI,报道的却只是CI的上限。

    总之, SD 、显著性检验,95%或者99% 的CI,均应该加在报告中 ,有利于读者理解研究结果。它们均有信息量,能相互补充,而不是替代。相反,“ 裸”的 SE 的并不能告诉我们什么信息**,多占据了一些篇幅和空间而已。

    以上就是关于sem和sd转换相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    百度Seo在线优化(百度seo在线优化方案)

    seo网页优化工具(seo网页优化工具是什么)

    seo主要是优化(seo主要优化目的是啥)

    世界最贵的大米排行榜(中国最贵的大米排行榜多少钱一斤)

    微视网页版登录