数据分析的实例(数据分析的实例分析)
大家好!今天让创意岭的小编来大家介绍下关于数据分析的实例的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
官网:https://ai.de1919.com,如需咨询相关业务请拨打175-8598-2043,或微信:1454722008
本文目录:
一、大数据时代的案例分析
个案一
你开心他就买你焦虑他就抛
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。
霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。
这一招收效显著——当年第一季度,霍廷的公司获得了7%的收益率。
个案二
国际商用机器公司(IBM)估测,这些“数据”值钱的地方主要在于时效。对于片刻便能定输赢的华尔街,这一时效至关重要。曾经,华尔街2%的企业搜集微博等平台的“非正式”数据;如今,接近半数企业采用了这种手段。
●“社会流动”创业公司在“大数据”行业生机勃勃,和微博推特是合作伙伴。它分析数据,告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容,备受广告商热爱。
●通过乔希·詹姆斯的Omniture(著名的网页流量分析工具)公司,你可以知道有多少人访问你的网站,以及他们呆了多长时间——这些数据对于任何企业来说都至关重要。詹姆斯把公司卖掉,进账18亿美元。
●微软专家吉拉德喜欢把这些“大数据”结果可视化:他把客户请到办公室,将包含这些公司的数据图谱展现出来——有些是普通的时间轴,有些像蒲公英,有些则是铺满整个画面的泡泡,泡泡中显示这些客户的粉丝正在谈论什么话题。
●“脸谱”数据分析师杰弗逊的工作就是搭建数据分析模型,弄清楚用户点击广告的动机和方式。
处理和分析工具
用于分析大数据的工具主要有开源与商用两个生态圈。
开源大数据生态圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。
2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。
3、NoSQL,membase、MongoDb
商用大数据生态圈:
1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。
二、有关数据分析的7个方法论
距离2018Tableau峰会--上海站已经过去10天了,好记性不如烂笔头,干货太多很想把所有内容都记录下来,下面分享一篇《有关数据分析的7个方法》并结合我工作当中的一些心得~
当我们拿到海量的数据时,可能会因为数据体量过大而无从下手,于是我们就变成了数据的搬运工,老板实际上要的是一瓢数据,而我们给老板的是一池数据让老板在数据的池水中翱游。好的数据分析是让数据说话,那么我们怎样来让数据说话呢,上干货~~~7个分析方法
1. 数据随时间变化 :某一个指标在日期维度上的变化,找寻异常、趋势
tips:结合已知的事件来看待它的影响,最大值和最小值、异常值,等拐点都可以成为挖掘故事的金矿,可以将跨度时间切割为年度、季度、月度等,比较正常和不正常值的差异来探究异常。
结合工作当中的实例:上海一门店进行促销,老板一般会看截止某一时间节点的销量,当时我们在分析销量的时候我们分析了按小时的销量,发现门店的销量会在早晚高峰出现销量上升,但在晚高峰时突然出现了销量的短时下跌,后来结合CCTV发现门店因为进货短时间人手不足等原因造成销量下降。
2. 数据的放大与缩小
tips:集中关注某一特定区域或者范围的数据,将其与其余的数据做对比,可以先从整体入手并选择感兴趣的的数据区间,或者从某些有特征的数据点入手,查看数据是否存在异常
结合工作当中的实例:每月在做月度分析的时候,比如涉及销量完成率等这一个指标,我们一般会先看当月的情况,根据预算分配,我们会再考察YTD的情况。
3. 数据的对比
tips:展示不同区域或者不同类别为什么会呈现不同的现象,通常是将一个群组/维度/项目与另外一个做对比
确认对比的目的,比如证实或伪证自己的猜想,对比不一定需要产生于在同一层级之间,可以个体VS个体,VS整体/平均/中位数
结合工作当中的实例:我们在年初的时候,公司对亏损的门店进行指标分析和量化,我们选取了销量-服务-效率等几个维度进行对比。对于具体门店到具体指标时,我们采用门店指标与公司中位数进行对比。
4. 数据的上钻/下钻
tips:在具有层级结构的数据中探索某一维度是如何影响全局的,可以有自下而上或者自上而下
当选择到底是自下而上还是自上而下时,考虑你的听众更熟悉的背景,如果他们是只处理工作流程的某一具体环节的同事,那么选择自下而上;如果他们是对全局有宏观把控但是你需要他们关注某些具体细节的领导,那么选择自上而下。
结合工作当中的实例:每月在做月度分析的时候,我们一般都会先关注公司整体销售数据,具体销量数字和完成预算情况,此外还会关注重点销售区域的销售数据,对于预算完成较差的区域,我们进一步再关注具体门店的情况。
5.突出值/异常值
tips:发现表现异常的时间段/个体,通过散点图或者盒须图进行呈现。异常值越突出,故事效果越好,越容易给观众以深刻的印象,用不同的颜色或者注释标记出异常值以达到突出的效果。结合其他的叙述类型来挖掘出异常值背后的故事。
结合工作当中的实例:笔者所在的行业为零售行业,每天的零售销售数据很多,记得一次月度汇报,销量Top5的门店竟然出现在利润后十名的表单中,当时细究原因是财务在账务处理时将利润进行了分割。此外,对于异常数据笔者发现很多情况是由于底层数据未经处理而导致数据不干净。
6. 数据的交叉点 :多条趋势线的相互交叉,或者某一个体超越了另外一个个体的时间节点
tips:通常代表着某种转折或某个标志性的时间,展示时将交叉点之前时段的数据带入到故事当中可以让听众对交叉点产生时的背景有大致了解,同样可以结合其他的故事类型一同讲述。
结合工作当中的实例:我们在做数据分析时,我们会对比同期销量趋势,对于本年度销量大于上一年度销量的月份,我们会具体去看上涨的原因,具体是因为某一营销政策、竞争对手等原因。
7.剖析原因:
tips:在关注某一指标时,分析哪些因素会影响该指标的表现,分析两个角度之间的关系。
一个普遍应用的结构叫做“Goldilocks", 先展示一个并非特别相关的因素,然后再讲述特别恰当的影响因子。如果有一个大家普遍认为很重要的因素但事实上并没有想象中那么重要,说明后面还有一个更恰当的因素。
结合工作当中的实例:我们在分析门店亏损情况的时候,通常会先找到几个可能影响利润的几个指标,然后进行参考环比数据进行解释,当我们用现有的几个指标不能解释利润变化的时候,说明我们查看的影响因素还不够全面或者门店周围环境发生了重大改变。
三、《利用Python进行数据分析》——案例1从Bitly获取数据
这个案例主要目的是转换json类型的数据,利用python和pandas方法进行计数。
step1:获取数据
将json格式数据转化成python对象
step2纯python时区计数
1.获取时区+计数
2.对以上字典形式进行计数
3.更更简单的方法,直接用python标准库的collections.Counters类
从仅获取时区后开始
step3 使用pandas计数
step4 可视化 seaborn
5.补充一些语句
四、R数据分析:混合效应模型实例
上篇文章有写多水平模型,这篇文章接着写,肯定好多人没搞懂,因为我自己也迷迷糊糊的,哈哈,很尴尬。
传统的回归需要满足的假设之一就是测量之间是相互独立的,然而有一种实验设计叫做重复测量设计,或者叫做被试内设计 within-subjects design,这么一种设计方法中一个受试对象会被测量多次,因为很多的测量都是来自同一个人所以这些测量我们有理由相信他们之间是不独立的。
那么就不能使用传统的回归,而混合效应就可以将不同水平(测量水平和个体水平)的变异都系统地分离开。
什么时候使用混合效应模型呢? ------Studies that obtain multiple measurements over time (longitudinal, time-series) or multiple trials per participant (within subjects) lend themselves well to mixed model analyses.
写个例子给大家一个更加直观的感觉,比如我们想知道披萨的消费量和心情有没有关系 (是不是有关系,关系是不是稳定) ,我们招募一群受试者,让他们报告他们的披萨消费量和他们的心情,报告15个时间点。
Hypothetical sample size, n = 30
DV : Mood rating (scale)
IV1 : Pizza consumption
IV2 : Time points (Weeks, 1-10)
此例就是一个被试内设计,一个人测了15次,可怕。
接下来我们对这个例子进行分析:
Fixed effects are, essentially, your predictor variables. This is the effect you are interested in after accounting for random variability (hence, fixed).
固定效应就是你感兴趣的预测变量, 在我举得这个例子中就是披萨消费量和时间,因为我们感兴趣
披萨消费量对心情的影响和影响随时间的变化情况。
Random effects are best defined as noise in your data. These are effects that arise from uncontrollable variability within the sample. Subject level variability is often a random effect.
随机效应就是噪声,通常我们研究低水平的变量,高水平统统为噪声, 此例中,我们研究消费量和心情,可以把这两个变量看作是嵌套在人的水平上的,那么人与人之间的差异就是随机效应。
Intercepts : The baseline relationship between IV & DV. Fixed effects are plotted as intercepts to reflect the baseline level of your DV.
截距就是基线时自变量和因变量的关系。 此例中随机截距就是披萨消费量基线时人与人之间不同,而固定截距就是基线时所以人的披萨消费量相同。
Slope : The strength of the relationship between IV & DV (controlling for randomness), which represent random effects. You should expect to see differences in the slopes of your random factors.
斜率就是自变量和因变量的关系强度。 此例中,随机斜率就是人与人之间披萨消费量和心情的关系不一样,而固定斜率就是人与人之间披萨消费量和心情的关系一样。
特别注意,截距和斜率有可能有相关性。就是不同基线的个体披萨消费量和心情的关系不一样。
通常我们在模型中建立,对于随机效应的表述语法如上,1代表随机斜率,0代表固定斜率
从上面的结构中我们可以知道,其实随机效应有很多,我们到底选择哪种随机效应最好呢?
这就需要我们进行模型比较了:
我们可以通过模型的AIC,BIC和卡方来进行模型的比较,上图的结果中我们可以看到模型二相对模型三并没有提高拟合,所以模型二就是最佳模型, (1 + pizza +time|subject)就是最佳随机效应结构,意思就是不同的个体他们的极限披萨消费量是不同的,而且在披萨消费量影响心情时的斜率也是不同的。
上一部分我们找到了模型最好的随机效应结构,接下来我们就给模型加入固定效应:
跑3个模型,分别加入固定效应和固定效应的交互之后我们开始检验到底哪一个模型好:
通过p值我们发现模型二其实是最好的模型,所以我们可以得到结论: 控制随机效应后披萨的消费量越高,心情越好,但时间会减弱这种效应。时间和披萨的消费量之间并没有交互作用。
如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。
如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。
If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.
Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??
Then Contact Me. I will solve your Problem...
加油吧,打工人!
(站外链接发不了,请关注后私信回复“数据链接”获取本号所有使用数据)
往期内容:
从“我丑到我自己了”说起——混合效应模型续
重复测量数据分析系列:混合效应模型基础
R数据分析:多水平模型详细说明
以上就是关于数据分析的实例相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: