HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    回归分析中数据缺失怎么处理(回归分析中数据缺失怎么处理好)

    发布时间:2023-04-14 12:06:58     稿源: 创意岭    阅读: 55        

    大家好!今天让创意岭的小编来大家介绍下关于回归分析中数据缺失怎么处理的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008

    本文目录:

    回归分析中数据缺失怎么处理(回归分析中数据缺失怎么处理好)

    一、SPSS如何处理缺失值

    1、以下表为例,生物成绩中存在缺失值情况,因为样本量本就不大,直接去掉缺失值很可能会影响最后的结果。

    回归分析中数据缺失怎么处理(回归分析中数据缺失怎么处理好)

    2、我们在菜单栏依次点击“转换”、“替换缺失值”。

    回归分析中数据缺失怎么处理(回归分析中数据缺失怎么处理好)

    3、之后会弹出“替换缺失值”对话框。我们将生物字段点选入右侧选框。可以根据个人需要重新命名名称。

    回归分析中数据缺失怎么处理(回归分析中数据缺失怎么处理好)

    4、之后在查看器中可以看到对于缺失值的描述及处理方法。

    回归分析中数据缺失怎么处理(回归分析中数据缺失怎么处理好)

    5、返回SPSS主界面,可以看到新增的一列数据,对于缺失值已经进行了补充。

    回归分析中数据缺失怎么处理(回归分析中数据缺失怎么处理好)

    二、数据分析中的缺失值处理

    数据分析中的缺失值处理

    没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。

    造成数据缺失的原因

    现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的:

    信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。

    信息被遗漏。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。

    有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。

    有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关。

    获取这些信息的代价太大。

    系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。

    对缺失值的处理要具体问题具体分析,为什么要具体问题具体分析呢?因为属性缺失有时并不意味着数据缺失,缺失本身是包含信息的,所以需要根据不同应用场景下缺失值可能包含的信息进行合理填充。下面通过一些例子来说明如何具体问题具体分析,仁者见仁智者见智,仅供参考:

    “年收入”:商品推荐场景下填充平均值,借贷额度场景下填充最小值;

    “行为时间点”:填充众数;

    “价格”:商品推荐场景下填充最小值,商品匹配场景下填充平均值;

    “人体寿命”:保险费用估计场景下填充最大值,人口估计场景下填充平均值;

    “驾龄”:没有填写这一项的用户可能是没有车,为它填充为0较为合理;

    ”本科毕业时间”:没有填写这一项的用户可能是没有上大学,为它填充正无穷比较合理;

    “婚姻状态”:没有填写这一项的用户可能对自己的隐私比较敏感,应单独设为一个分类,如已婚1、未婚0、未填-1。

    缺失的类型

    在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机缺失。

    完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失。

    随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。例如财务数据缺失情况与企业的大小有关。

    非随机缺失(missing not at random,MNAR):指的是数据的缺失与不完全变量自身的取值有关。如高收入人群的不原意提供家庭收入。

    对于随机缺失和非随机缺失,删除记录是不合适的,随机缺失可以通过已知变量对缺失值进行估计;而非随机缺失还没有很好的解决办法。

    说明:对于分类问题,可以分析缺失的样本中,类别之间的比例和整体数据集中,类别的比例

    缺失值处理的必要性

    数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,缺省值的存在,造成了以下影响:

    系统丢失了大量的有用信息;

    系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;

    包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。

    数据挖掘算法本身更致力于避免数据过分拟合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,缺省值需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。

    缺失值处理方法的分析与比较

    处理不完整数据集的方法主要有三大类:删除元组、数据补齐、不处理。

    删除元组

    也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。这种方法简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比非常小的情况下非常有效,类标号缺失时通常使用该方法。

    然而,这种方法却有很大的局限性。它以减少历史数据来换取信息的完备,会丢弃大量隐藏在这些对象中的信息。在初始数据集包含的对象很少的情况下,删除少量对象足以严重影响信息的客观性和结果的正确性;因此,当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。

    说明:删除元组,或者直接删除该列特征,有时候会导致性能下降。

    数据补齐

    这类方法是用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。数据挖掘中常用的有以下几种补齐方法:

    人工填写(filling manually)

    由于最了解数据的还是用户自己,因此这个方法产生数据偏离最小,可能是填充效果最好的一种。然而一般来说,该方法很费时,当数据规模很大、空值很多的时候,该方法是不可行的。

    特殊值填充(Treating Missing Attribute values as Special values)

    将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的概念,可能导致严重的数据偏离,一般不推荐使用。

    平均值填充(Mean/Mode Completer)

    将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。

    如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;

    如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。与其相似的另一种方法叫条件平均值填充法(Conditional Mean Completer)。在该方法中,用于求平均的值并不是从数据集的所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。

    这两种数据的补齐方法,其基本的出发点都是一样的,以最大概率可能的取值来补充缺失的属性值,只是在具体方法上有一点不同。与其他方法相比,它是用现存数据的多数信息来推测缺失值。

    热卡填充(Hot deck imputation,或就近补齐)

    对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。

    K最近距离邻法(K-means clustering)

    先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。

    使用所有可能的值填充(Assigning All Possible values of the Attribute)

    用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。

    组合完整化方法(Combinatorial Completer)

    用空缺属性值的所有可能的属性取值来试,并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法,能够得到好的约简结果;但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。

    回归(Regression)

    基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。

    期望值最大化方法(Expectation maximization,EM)

    EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步(Excepctaion step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步(Maximzation step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

    多重填补(Multiple Imputation,MI)

    多重填补方法分为三个步骤:

    为每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来填补数据集中的缺失值,产生若干个完整数据集合。

    每个填补数据集合都用针对完整数据集的统计方法进行统计分析。

    对来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。该方法的计算也很复杂。

    C4.5方法

    通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。

    就几种基于统计的方法而言,删除元组法和平均值法差于热卡填充法、期望值最大化方法和多重填充法;回归是比较好的一种方法,但仍比不上hot deck和EM;EM缺少MI包含的不确定成分。值得注意的是,这些方法直接处理的是模型参数的估计而不是空缺值预测本身。它们合适于处理无监督学习的问题,而对有监督学习来说,情况就不尽相同了。譬如,你可以删除包含空值的对象用完整的数据集来进行训练,但预测时你却不能忽略包含空值的对象。另外,C4.5和使用所有可能的值填充方法也有较好的补齐效果,人工填写和特殊值填充则是一般不推荐使用的。

    不处理

    补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的信息系统。而且,对空值不正确的填充往往将新的噪声引入数据中,使挖掘任务产生错误的结果。因此,在许多情况下,我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。

    不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法包括贝叶斯网络和人工神经网络等。

    贝叶斯网络提供了一种自然的表示变量间因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。

    人工神经网络可以有效的对付缺失值,但人工神经网络在这方面的研究还有待进一步深入展开。

    知乎上的一种方案:

    4.把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个变量:是否男、是否女、是否缺失。连续型变量也可以这样处理。比如Google、百度的CTR预估模型,预处理时会把所有变量都这样处理,达到几亿维。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题。缺点是计算量大大提升。

    而且只有在样本量非常大的时候效果才好,否则会因为过于稀疏,效果很差。

    总结

    大多数数据挖掘系统都是在数据挖掘之前的数据预处理阶段采用第一、第二类方法来对空缺数据进行处理。并不存在一种处理空值的方法可以适合于任何问题。无论哪种方式填充,都无法避免主观因素对原系统的影响,并且在空值过多的情形下将系统完备化是不可行的。从理论上来说,贝叶斯考虑了一切,但是只有当数据集较小或满足某些条件(如多元正态分布)时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是,采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论,D-S的证据理论等。

    三、SPSS如何处理缺失值

    SPSS处理缺失值步骤如下:

    1、调出相关操作界面。其数据的处理方法大致都是用变量的集中位置指标来替代缺失值,主要适合于完全随机缺失的资料,若不是完全随机的,得用“缺失值分析”模块分析缺失数据。

    2、名称:给替代后变量命名,方法:给出了5中缺失值的替代方法。

    3、“附(邻)近点的跨度”:系统默认的是2,即缺失值上下两个观察值作为范围。若选择“全部”,即将所有的观察值作为临近点。这样就可以处理好缺失值了。

    四、spss分析方法-缺失值分析

     

    spss 分析方法 - 缺失值分析

    缺失值可能会导致严重的问题。如果带有缺失值的个案与不带缺失值的个案有着根本的不同,则结果将被误导。此外,缺失的数据还可能降低所计算的统计量的精度,因为计算时的信息比原计划的信息要少。

    另一个问题是, 很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化。

    下面我们主要从下面四个方面来解说:

    [if !supportLineBreakNewLine]

    [endif]

    实际应用

    理论思想

    建立模型

    [if !supportLineBreakNewLine]

    [endif]

    分析结果

    [if !supportLineBreakNewLine]

    [endif]

    一、实际应用

    [if !supportLineBreakNewLine]

    [endif]

    众所周知,在诸如收入、交通事故等问题的研究中,因为被调查者拒绝回答或者由于调查研究中的损耗,会存在一些未回答的问题。

    例如在一次人口调查中,15%的人没有回答收入情况,高收入者的回答率比中等收入者要低,或者在严重交通事故报告中,诸如是否使用安全带和酒精浓度等关键问题在很多个案中都没有记录,这些缺失的个案值便是缺失值。缺失值主要表现为以下3种: (1)完全随机缺失(Missing Completely At Random,MCAR),表示缺失和变量的取值无关。 例如,假设在研究年龄和收入的关系,如果缺失的数据和年龄或收入数值无关,则缺失值方式为MCAR。要评估MCAR是否为站得住脚的假设,可以通过比较回答者和未回答者的分布来评估观察数据。也可以使用单变量t-检验或Little's MCAR多变量检验来进行更正规的评估。如果MCAR假设为真,可以使用列表删除(listwise deletion)(完整个案分析),无须担心估计偏差,尽管可能会丧失一些有效性。如果MCAR不成立,列表删除、均值置换等逼近方法就可能不是好的选择。 (2)随机缺失(Missing At Random,MAR) , 缺失分布中调查变量只依赖于数据组中有记录的变量。 继续上面的例子,考虑年龄全部被观察,而收入有时有缺失,如果收入缺失值仅依赖于年龄,缺失值就为MAR。 (3)非随机缺失。 这是研究者最不愿意看到的情形,数据的缺失不仅和其他变量的取值有关,也和自身有关。如果收入缺失值依赖于收入值,则既不是MCAR,也不是MAR。

    [if !supportLineBreakNewLine]

    [endif]

    二、理论思想

    SPSS主要对MCAR和MAR两种缺失值情况进行分析。

    区别MCAR和MAR的含义在于:由于MCAR实际上很难遇到,应该在进行调查之前就考虑哪些重要变量可能会有非无效的未回答,还要尽量在调查中包括共变量,以便用这些变量来估算缺失值。

    [if !supportLineBreakNewLine]

    [endif]

    针对不同情况的缺失值,SPSS操作给出了以下3种处理方法:

    ( 1 )删除缺失值, 这种方法适用于缺失值非常少的时候,它不需要专门的步骤,通常在相应的分析对话框的“选项”子对话框中进行设置。

    ( 2 )替换缺失值 ,利用“转换”菜单中的“替换缺失值”命令将所有的记录看成一个序列,然后采用某种指标对缺失值进行填充。

    ( 3 )缺失值分析过程 ,缺失值分析过程是SPSS专门针对缺失值分析而提供的模块。

    缺失值分析过程有以下3个主要功能: ( 1 )描述缺失值的模式。 通过缺失值分析的诊断报告,用户可以明确地知道缺失值所在位置及其出现的比例是多少,还可以推断缺失值是否为随机缺失等。 ( 2 )利用列表法、成对法、回归法或 EM (期望最大化)法等为含缺失值的数据估算平均值、标准误差、协方差和相关性,成对法还可显示成对完整个案的计数。( 3 )使用回归法或 EM 法用估算值填充(插补)缺失值,以此提高统计结果的可信度。 缺失数据可以是分类数据或定量数据(刻度或连续),尽管如此,SPSS只能为定量变量估计统计数据并插补缺失数据。对于每个变量,必须将未编码为系统缺失值的缺失值定义为用户缺失值。舍尔判别法利用投影的方法使多维问题简化为一维问题来处理。其通过建立线性判别函数计算出各个观测量在各典型变量维度上的坐标并得出样本距离各个类中心的距离,以此作为分类依据。

    [if !supportLineBreakNewLine]

    [endif]

    [if !supportLineBreakNewLine]

    [endif]

    三、建立模型

    缺失值分析案例:

    [if !supportLineBreakNewLine]

    [endif]

    题目:下表的某些人口统计数据值已被缺失值替换。该假设数据文件涉及某电信公司在减少客户群中的客户流失方面的举措,每个个案对应一个单独的客户,并记录各类人口统计和服务用途信息。下面将结合本数据文件详细说明如何得到数据文件的缺失值,从而认识SPSS的缺失值分析过程。

    一、数据输入

    二、操作步骤 1、进入SPSS,打开相关数据文件,“分析”|“缺失值分析”命令2、选择“婚姻状况[marital]”“受教育水平[ed]”“退休[retire]”及“性别[gender]”4个变量进入“分类变量”列表框;选择“服务月数[tenure]”“年龄[age]”“在现住址居住年数[address]”“家庭收入(千)[income]”“现职位工作年数[employ]”及“家庭人数[reside]”6个变量进入“定量变量”列表框。

    3、在“缺失值分析”对话框中单击“模式”按钮,弹出“缺失值分析:模式”对话框,选中“显示”选项组中的“个案表(按缺失值模式分组)”复选框,从“以下对象的缺失模式”列表框中选中income、ed、retire和gender 4个变量进入“以下对象的附加信息”列表框中。

    其他采用默认设置。设置完毕后,单击“继续”按钮,回到“缺失值分析”对话框。

    4、单击“描述”按钮,弹出“缺失值分析:描述”对话框。选中“单变量统计”复选框及“指示符变量统计”选项组中的“使用由指示符变量构成的组执行t检验”和“生成分类变量和指示符变量的交叉表”复选框,其他采用默认设置。

    5、勾选EM,其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。

    [if !supportLineBreakNewLine]

    [endif]

    四、结果分析

    1、单变量统计表下表给出了所有分析变量未缺失数据的频数、平均值和标准差,同时给出了缺失值的个数和百分比以及极值的统计信息。通过这些信息,我们可以初步了解数据的概貌特征,以employ一栏为例,employ变量的有效数据有904个,它们的平均值为11,标准差为10.113,缺失数据有96个,占数据总数的比例为9.6%,有15个极大值。

    2、估算表下两个表使用EM法进行缺失值的估算后,总体数据的均值和标准差的变化情况,其中“所有值”为原始数据的统计特征,EM为使用EM法后总体数据的统计特征。

    3

    、独立方差t检验表独立方差t测试结果,用户可以从中找出影响其他定量变量的变量的缺失值模式, 即通过单个方差 t 统计量结果,检验缺失值是否为完全随机缺失。 可以看出,年龄大的人倾向于不报告收入水平,当收入值缺失时,age的均值是49.73,当收入值完整时,age的均值为40.01。通过income一栏的t统计量可以看出,income的缺失将明显影响其他定量变量,这就说明income的缺失不是完全随机缺失。

    4、分类变量和定量变量交叉表以marital为例给出了分类变量与其他定量变量间的交叉表。该表给出了在不同婚姻情况下,各分类变量非缺失的个数和百分比,以及各种缺失值的个数和百分比,图中标识了系统缺失值的取值,以及各变量在不同婚姻情况中的分布情况。

    5、表格模式输出结果下表给出了表格模式输出结果(缺失值样式表),它给出了缺失值分布的详细信息,X为使用该模式下缺失的变量。由图可以看出,所有显示的950个个案中,9个变量值都完整的个案数有475个,缺失income值的个案有109个,同时缺失address和income值的个案有16个,其他数据的解释类似。

    6、EM估算统计表下面三个表给出了EM算法的相关统计量,包括EM平均值、协方差和相关性。从EM平均值输出结果中可知,age变量的平均值为41.91,从EM协方差输出结果中可知,age和tenture间的协方差值为135.326,从EM相关性输出结果中可知,age与tenture的相关系数为0.496。另外,从三个表格下方的 利特尔的MCAR检验可知,卡方检验的显著性值明显小于0.05,因此,我们拒绝了缺失值为完全随机缺失(MCAR)的假设 ,这也验证了3、独立方差t检验表所得到的结论。

    [if !supportLineBreakNewLine]

    [endif]

    参考案例数据:

    [if !supportLineBreakNewLine]

    [endif]

    [if !supportLists]【1】    [endif]spss统计分析从入门到精通 (第四版)  杨维忠,陈胜可,刘荣  清华大学出版社

    (获取更多知识,前往gz号程式解说)

    原文来自https://mp.weixin.qq.com/s/CsMIoA_vu8HJoPvW16oNFg

    以上就是关于回归分析中数据缺失怎么处理相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    红筹股回归是什么意思(红筹股回归是什么意思呀)

    分类和回归的主要算法(分类和回归的主要算法是)

    线性回归法怎么用(线性回归法怎么用图表表示)

    一楼院子景观设计

    立面景观设计(立面景观设计效果图)