数据分析经典案例(数据分析经典案例范文)
大家好!今天让创意岭的小编来大家介绍下关于数据分析经典案例的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、可视化数据分析有什么好的案例
这样的实例有很多
下面这个就是如何以令人信服的方式呈现一种单一的数据的好榜样。Pew Research创造了这个GIF动画,显示随着时间推移的人口统计数量的变化。这是一个好方法,它将一个内容较多的故事压缩成了一个小的package。
此外,这种类型的微内容很容易在社交网络上分享或在博客中嵌入,扩大了内容的传播范围。如果你想自己用Photoshop做GIF,这里有一个详细的教程。
二、《利用Python进行数据分析》——案例1从Bitly获取数据
这个案例主要目的是转换json类型的数据,利用python和pandas方法进行计数。
step1:获取数据
将json格式数据转化成python对象
step2纯python时区计数
1.获取时区+计数
2.对以上字典形式进行计数
3.更更简单的方法,直接用python标准库的collections.Counters类
从仅获取时区后开始
step3 使用pandas计数
step4 可视化 seaborn
5.补充一些语句
三、如何用SQL分析电商用户行为数据(案例)
本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程
——使用工具:MySQL,Excel,Navicat,PowerBI
——分析类型:描述分析,诊断分析
——分析方法:漏斗分析,用户路径分析,RFM用户价值分析,活跃/存留分析,帕累托分析,假设验证分析。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
(目录如下)
1.分析流程和方法
当没有清晰的数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。
然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于规律设计策略。简单来说:
——描述性分析就是:“画地图”
——诊断性分析就是:“找问题”
——预测性分析就是 :“找规律”
在数据分析中有两个典型的场景:
一种是有数据,没有问题:需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。
另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。
2.淘宝用户行为分析
本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。
我们首先来看下这个数据集的元数据:
根据以上数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案
纵向:
——这个数据集中用户的日活跃和周活跃时间有什么规律吗?
——在当日活跃的用户次日,三日,四日……还有多少活跃?
深向:
——用户从浏览到购买的整体转化率怎么样?
——用户从浏览到购买的路径是怎么样子的?
——平台主要会给用户推送什么商品?
——用户喜欢什么类目?喜欢什么商品?
——怎么判断哪些是高价值用户 ?
下面是叮当整理的常用分析方法:
我们可以给前面的问题匹配一下分析方法,便于后面的分析:
为了便于后面的数据分析,在分析之前我们需要先对做一下清洗
看元数据(字段解释,数据来源,数据类型,数据量……)初步发现问题为之后的处理做准备。
确定缺失值范围,去除不需要字段,填充缺失内容
根据元数据格式和后续分析需要的格式对数据进行处理
去除重复值,异常值
——去除重复值:并把用户ID,商品ID,时间戳设置为主键
——异常值处理:查询并删除2017年11月25日至2017年12月3日之外的数据
查询并删除小于2017-11-25的
——验证数据:
——分析思路:
——SQL提数:
——Excel可视化:
活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
用户在周六周日相比其他时间更活跃(周六周日为休息日,用户有更多时间)
一天内用户活跃的最高峰期为21点(用户在这个时间段空闲较多)
——分析思路:
——SQL提数:
列出每用户每天及当天后面又活跃的日期,并创建“活跃时间间隔表”用于后面求次日存留,三日存留……
对“活跃时间间隔表视图”引用进行分组统计,计算每日存留人数并创建视图
对存留人数表进行计算,统计活跃用户留存率
——Excel可视化:
——分析思路:
——SQL提数:
-把各种用户行为分离出来并创建视图方便后续查询用户行为数据
查询整体数据漏斗
——Excel可视化:
用户从浏览到购买整体转化率2.3%,具体主要在哪个环节流失还需要再细分用户路径分析
——分析思路:
——SQL提数:
——PowerBI可视化:
用户从浏览到购买的路径主要有4条,路径越长转化率越底
路径1:浏览→购买:转化率1.45%
路径2:浏览→加购物车→购买:转化率0.33
路径3:浏览→收藏→购买:转化率0.11%
路径4:浏览→收藏→加购物车→购买:转化率0.03%
——分析思路:
——SQL提数:
——Excel可视化:
——描述性分析:
浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。
——分析思路:
——SQL提数:
查询计算商品转化率,升序排列,取前100个
——Excel可视化:
——描述性分析:
从商品看:有17款商品转化率超过了1。
从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
——分析思路:
用户价值分析常用的分析方式是RFM模型
本次分析中的R,F,M具体定义(仅用于演示分析方法,无实际业务参考价值):
——SQL取数与分析:
1)建立打分标准:先计算R,F的值,并排序,根据R,F值最大值和最小值得区间设计本次得打分标准
-查询并计算R,F值创建视图
-引用RF数值表,分别查询R,F的最大值和最小值
-结合人工浏览的建立打分标准
2)给R,F按价值打分
3)计算价值的平均值
4)用平均值和用户分类规则表比较得出用户分类
——Excel可视化
通过描述性分析得到可视化的数据后我们一般会先看一下是否符合业务常识
如果符合常识接下来我们会通过与行业平均数据和本产品的同比环比对比看是否正常,如果不正常就要找原因,设计解决方案,如果正常那就看是否有可以优化的地方。
我们首先来看一下这些描述性分析是否符合业务常识和指标是否正常:
1.活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
2.用户在周六周日相比其他时间更活跃
3.一天内用户活跃的最高峰期为21点
4.从2017年11月15日致2017年12月3日,活跃用户新增38%
5.从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
6.用户从浏览到购买整体转化率2.3%
7.用户从浏览到购买的路径主要有4条,路径越长转化率越低。
8.浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
9.浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。
10.从商品看:有17款商品转化率超过了1。
11.从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
根据以上诊断分析我们梳理出了以下假设,做假设验证。
假设1:这些商品中有高转化率的爆款商品
对比浏览量TOP5的商品,发现这些商品转化率在同一类目下并不高,假设不成立
假设2:4756105,3607361,4357323三个类目属于高频刚需类目
-创建类目购买频次表
-计算类目购买频次平均值
-查询4756105,3607361,4357323三个类目的购买频次
4756105,3607361,4357323三个类目的用户购买频次明显高于平均值,假设成立
假设3:有部分用户是未点击商详直接从收藏和购物车购买的。
用户不是直接从收藏和购物车购买的,只是后续复购未点击商详,假设不成立
假设4:淘宝推荐的商品主要是“同一类目下的高转化商品”
用Excel对浏览量TOP100的商品ID和转化率TOP100的商品ID进行去重,结果无重复值,假设不成立
3.结论:
1)用户活跃:用户活跃曲线整体呈上升趋势,在一周中周六,周日活跃度比平时更高,在一天中用户活跃曲线从凌晨4点开始往上升,在中午12点和下午5~6点有两个小低谷(吃饭),到晚上9点时活跃度达到顶峰。
2)用户留存:从2017年11月15日致2017年12月3日的用户留存数据来看,淘宝的用户留存数据较好,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
3)用户转化:整体转化2.3%,用户从浏览到购买的路径主要有4条,路径越长转化率越低。
4)平台推荐与用户偏好:从数据集中的数据来看,排除用户兴趣偏好标签,淘宝给用户用户推送的商品主要是高频刚需的类目,促使用户复购,流量回流平台。
以上结论受数据量和数据类型的影响,并不一定准确,仅用来练习数据分析方法。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
四、【第1周】数据分析惯用的5种分析方法
就好比中学里你要解一元二次方式,可以用公式法、配方法、直接开平方法、因式分解法。
数据分析里也有技巧,在一些通用的分析场景下可以快速使用,而且对未来构建数据分析模型也有帮助。
所谓公式法就是针对某个指标,用公式层层分解该指标的影响因素
举例:分析某产品的销售额较低的原因, 用公式法分解
某产品销售额=销售量 X 产品单价
销售量=渠道A销售量 + 渠道B销售量 + 渠道C销售量 + …
渠道销售量=点击用户数 X 下单率
点击用户数=曝光量 X 点击率
通过对销售额的逐层拆解,细化评估以及分析的粒度。
公式拆解法是针对问题的层级式解析,在拆解时,对因素层层分解,层层剥尽。
对比法就是用两组或两组以上的数据进行比较,是最通用的方法。
我们知道孤立的数据没有意义,有对比才有差异。一些直接描述事物的变量,如长度、数量、高度、宽度等。通过对比得到比率数据,增速、效率、效益等指标,这才是数据分析时常用的。
比如用于在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。
通过对两种及以上维度的划分,运用坐标的方式表达出想要的价值。由价值直接转变为策略,从而进行一些落地的推动。
象限法是一种策略驱动的思维,常于产品分析、市场分析、客户管理、商品管理等。
比如,下图是一个广告点击的四象限分布,X轴从左到右表示从低到高,Y轴从下到上表示从低到高。
还有经典的RFM模型 ,把客户按最近一次消费(Recency)、消费频率(Frequency)、消费金额 (Monetary)三个维度分成八个象限。
象限法的优势:
1.找到问题的共性原因
通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如上面广告的案例中,第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道;
2.建立分组优化策略
针对投放的象限分析法可以针对不同象限建立优化策略,例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。
二八法也可以叫帕累托法则,源于经典的二八法则。在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘
二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果。
一般地,会用在产品分类上,去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额,那么哪些SKU是重要的呢,这就是在业务运营中分清主次的问题。
常见的做法是将产品SKU作为维度,并将对应的销售额作为基础度量指标,将这些销售额指标从大到小排列,并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。
百分比在 70%(含)以内,划分为 A 类。
百分比在 70~90%(含)以内,划分为 B 类。
百分比在 90~100%(含)以内,划分为 C 类。
ABC分析模型,不光可以用来划分产品和销售额,还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些,占比多少。假设有20%,那么在资源有限的情况下,就知道要重点维护这20%类客户。
是一个流程化的思考方式,常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。
整体漏斗模型的核心思想其实可以归为分解和量化。 比如分析电商的转化,我们要做的就是监控每个层级上的用户转化,寻找每个层级的可优化点。对于没有按照流程操作的用户,专门绘制他们的转化模型,缩短路径提升用户体验。
AARRR模型 :用户获取、用户激活、用户留存、用户收益以及用户传播
单一的漏斗分析是没有用的,不能得出什么结果,要与其它相结合,如与历史数据的对比等。
以上就是关于数据分析经典案例相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读:
mbr转换gpt分区数据会删除吗(mbr转换成gpt磁盘会删除数据吗)