rfm分析法应用案例(rfm分析法应用案例作业)
大家好!今天让创意岭的小编来大家介绍下关于rfm分析法应用案例的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、【第1周】数据分析惯用的5种分析方法
就好比中学里你要解一元二次方式,可以用公式法、配方法、直接开平方法、因式分解法。
数据分析里也有技巧,在一些通用的分析场景下可以快速使用,而且对未来构建数据分析模型也有帮助。
所谓公式法就是针对某个指标,用公式层层分解该指标的影响因素
举例:分析某产品的销售额较低的原因, 用公式法分解
某产品销售额=销售量 X 产品单价
销售量=渠道A销售量 + 渠道B销售量 + 渠道C销售量 + …
渠道销售量=点击用户数 X 下单率
点击用户数=曝光量 X 点击率
通过对销售额的逐层拆解,细化评估以及分析的粒度。
公式拆解法是针对问题的层级式解析,在拆解时,对因素层层分解,层层剥尽。
对比法就是用两组或两组以上的数据进行比较,是最通用的方法。
我们知道孤立的数据没有意义,有对比才有差异。一些直接描述事物的变量,如长度、数量、高度、宽度等。通过对比得到比率数据,增速、效率、效益等指标,这才是数据分析时常用的。
比如用于在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。
通过对两种及以上维度的划分,运用坐标的方式表达出想要的价值。由价值直接转变为策略,从而进行一些落地的推动。
象限法是一种策略驱动的思维,常于产品分析、市场分析、客户管理、商品管理等。
比如,下图是一个广告点击的四象限分布,X轴从左到右表示从低到高,Y轴从下到上表示从低到高。
还有经典的RFM模型 ,把客户按最近一次消费(Recency)、消费频率(Frequency)、消费金额 (Monetary)三个维度分成八个象限。
象限法的优势:
1.找到问题的共性原因
通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如上面广告的案例中,第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道;
2.建立分组优化策略
针对投放的象限分析法可以针对不同象限建立优化策略,例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。
二八法也可以叫帕累托法则,源于经典的二八法则。在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘
二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果。
一般地,会用在产品分类上,去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额,那么哪些SKU是重要的呢,这就是在业务运营中分清主次的问题。
常见的做法是将产品SKU作为维度,并将对应的销售额作为基础度量指标,将这些销售额指标从大到小排列,并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。
百分比在 70%(含)以内,划分为 A 类。
百分比在 70~90%(含)以内,划分为 B 类。
百分比在 90~100%(含)以内,划分为 C 类。
ABC分析模型,不光可以用来划分产品和销售额,还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些,占比多少。假设有20%,那么在资源有限的情况下,就知道要重点维护这20%类客户。
是一个流程化的思考方式,常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。
整体漏斗模型的核心思想其实可以归为分解和量化。 比如分析电商的转化,我们要做的就是监控每个层级上的用户转化,寻找每个层级的可优化点。对于没有按照流程操作的用户,专门绘制他们的转化模型,缩短路径提升用户体验。
AARRR模型 :用户获取、用户激活、用户留存、用户收益以及用户传播
单一的漏斗分析是没有用的,不能得出什么结果,要与其它相结合,如与历史数据的对比等。
二、如何用SQL分析电商用户行为数据(案例)
本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程
——使用工具:MySQL,Excel,Navicat,PowerBI
——分析类型:描述分析,诊断分析
——分析方法:漏斗分析,用户路径分析,RFM用户价值分析,活跃/存留分析,帕累托分析,假设验证分析。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
(目录如下)
1.分析流程和方法
当没有清晰的数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。
然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于规律设计策略。简单来说:
——描述性分析就是:“画地图”
——诊断性分析就是:“找问题”
——预测性分析就是 :“找规律”
在数据分析中有两个典型的场景:
一种是有数据,没有问题:需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。
另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。
2.淘宝用户行为分析
本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。
我们首先来看下这个数据集的元数据:
根据以上数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案
纵向:
——这个数据集中用户的日活跃和周活跃时间有什么规律吗?
——在当日活跃的用户次日,三日,四日……还有多少活跃?
深向:
——用户从浏览到购买的整体转化率怎么样?
——用户从浏览到购买的路径是怎么样子的?
——平台主要会给用户推送什么商品?
——用户喜欢什么类目?喜欢什么商品?
——怎么判断哪些是高价值用户 ?
下面是叮当整理的常用分析方法:
我们可以给前面的问题匹配一下分析方法,便于后面的分析:
为了便于后面的数据分析,在分析之前我们需要先对做一下清洗
看元数据(字段解释,数据来源,数据类型,数据量……)初步发现问题为之后的处理做准备。
确定缺失值范围,去除不需要字段,填充缺失内容
根据元数据格式和后续分析需要的格式对数据进行处理
去除重复值,异常值
——去除重复值:并把用户ID,商品ID,时间戳设置为主键
——异常值处理:查询并删除2017年11月25日至2017年12月3日之外的数据
查询并删除小于2017-11-25的
——验证数据:
——分析思路:
——SQL提数:
——Excel可视化:
活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
用户在周六周日相比其他时间更活跃(周六周日为休息日,用户有更多时间)
一天内用户活跃的最高峰期为21点(用户在这个时间段空闲较多)
——分析思路:
——SQL提数:
列出每用户每天及当天后面又活跃的日期,并创建“活跃时间间隔表”用于后面求次日存留,三日存留……
对“活跃时间间隔表视图”引用进行分组统计,计算每日存留人数并创建视图
对存留人数表进行计算,统计活跃用户留存率
——Excel可视化:
——分析思路:
——SQL提数:
-把各种用户行为分离出来并创建视图方便后续查询用户行为数据
查询整体数据漏斗
——Excel可视化:
用户从浏览到购买整体转化率2.3%,具体主要在哪个环节流失还需要再细分用户路径分析
——分析思路:
——SQL提数:
——PowerBI可视化:
用户从浏览到购买的路径主要有4条,路径越长转化率越底
路径1:浏览→购买:转化率1.45%
路径2:浏览→加购物车→购买:转化率0.33
路径3:浏览→收藏→购买:转化率0.11%
路径4:浏览→收藏→加购物车→购买:转化率0.03%
——分析思路:
——SQL提数:
——Excel可视化:
——描述性分析:
浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。
——分析思路:
——SQL提数:
查询计算商品转化率,升序排列,取前100个
——Excel可视化:
——描述性分析:
从商品看:有17款商品转化率超过了1。
从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
——分析思路:
用户价值分析常用的分析方式是RFM模型
本次分析中的R,F,M具体定义(仅用于演示分析方法,无实际业务参考价值):
——SQL取数与分析:
1)建立打分标准:先计算R,F的值,并排序,根据R,F值最大值和最小值得区间设计本次得打分标准
-查询并计算R,F值创建视图
-引用RF数值表,分别查询R,F的最大值和最小值
-结合人工浏览的建立打分标准
2)给R,F按价值打分
3)计算价值的平均值
4)用平均值和用户分类规则表比较得出用户分类
——Excel可视化
通过描述性分析得到可视化的数据后我们一般会先看一下是否符合业务常识
如果符合常识接下来我们会通过与行业平均数据和本产品的同比环比对比看是否正常,如果不正常就要找原因,设计解决方案,如果正常那就看是否有可以优化的地方。
我们首先来看一下这些描述性分析是否符合业务常识和指标是否正常:
1.活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
2.用户在周六周日相比其他时间更活跃
3.一天内用户活跃的最高峰期为21点
4.从2017年11月15日致2017年12月3日,活跃用户新增38%
5.从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
6.用户从浏览到购买整体转化率2.3%
7.用户从浏览到购买的路径主要有4条,路径越长转化率越低。
8.浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
9.浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。
10.从商品看:有17款商品转化率超过了1。
11.从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
根据以上诊断分析我们梳理出了以下假设,做假设验证。
假设1:这些商品中有高转化率的爆款商品
对比浏览量TOP5的商品,发现这些商品转化率在同一类目下并不高,假设不成立
假设2:4756105,3607361,4357323三个类目属于高频刚需类目
-创建类目购买频次表
-计算类目购买频次平均值
-查询4756105,3607361,4357323三个类目的购买频次
4756105,3607361,4357323三个类目的用户购买频次明显高于平均值,假设成立
假设3:有部分用户是未点击商详直接从收藏和购物车购买的。
用户不是直接从收藏和购物车购买的,只是后续复购未点击商详,假设不成立
假设4:淘宝推荐的商品主要是“同一类目下的高转化商品”
用Excel对浏览量TOP100的商品ID和转化率TOP100的商品ID进行去重,结果无重复值,假设不成立
3.结论:
1)用户活跃:用户活跃曲线整体呈上升趋势,在一周中周六,周日活跃度比平时更高,在一天中用户活跃曲线从凌晨4点开始往上升,在中午12点和下午5~6点有两个小低谷(吃饭),到晚上9点时活跃度达到顶峰。
2)用户留存:从2017年11月15日致2017年12月3日的用户留存数据来看,淘宝的用户留存数据较好,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
3)用户转化:整体转化2.3%,用户从浏览到购买的路径主要有4条,路径越长转化率越低。
4)平台推荐与用户偏好:从数据集中的数据来看,排除用户兴趣偏好标签,淘宝给用户用户推送的商品主要是高频刚需的类目,促使用户复购,流量回流平台。
以上结论受数据量和数据类型的影响,并不一定准确,仅用来练习数据分析方法。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
三、[恒丰银行]基于大数据的精准营销模型应用
【案例】恒丰银行——基于大数据的精准营销模型应用 https://mp.weixin.qq.com/s?src=3×tamp=1500159788&ver=1&signature=pCHfpePVrKXUGp39JEg577lopIPT9KCdx9FqIL2LbRmunZMQ-86itFcexY XKcX3Vb1ypwGo8v0IU6fkNgcs QIafGAccsZFmMb6yBYcuPdqH63EKBvL88BGFaUrBBPQl0v*mpgzYxrTCkcaJGaX2iIFRHZEDNCmuM0qhqqN294=
本篇案例为数据猿推出的大型 “金融大数据主题策划” 活动 (查看详情) 第一部分的系列案例/征文;感谢** 恒丰银行** 的投递
作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融信息行业协会、互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的 《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》 还将在上海隆重举办 【论坛详情】 【上届回顾(点击阅读原文查看)】
在论坛现场,也将颁发 “技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖” 四大类案例奖
本文长度为 6000 字,建议阅读 12 分钟
如今,商业银行信息化的迅速发展,产生了大量的业务数据、中间数据和非结构化数据,大数据随之兴起。要从这些海量数据中提取出有价值的信息,为商业银行的各类决策提供参考和服务,需要结合大数据和人工智能技术。国外的汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。在国内的商业银行中,大数据的思想和技术逐步开始在业务中获得实践和尝试。
面对日趋激烈的行业内部竞争及互联网金融带来的冲击,传统的上门营销、电话营销,甚至是扫街营销等方式跟不上时代的节奏。利用精准营销可节约大量的人力物力、提高营销精准程度,并减少业务环节,无形中为商业银行节约了大量的营销成本。
虽然恒丰银行内部拥有客户的基本信息和交易等大量数据,但是传统的营销系统并没有挖掘出行内大量数据的价值,仍然停留在传统的规则模型。当下,恒丰银行接入了大量的外部数据,有着更多的维度,如果将内部数据与外部数据进行交叉,则能产生更大的价值。客户信息收集越全面、完整,数据分析得到的结论就越趋向于合理和客观。利用人工智能技术,建立精准营销系统变得可能且必要。
恒丰银行基于大数据的精准营销方案是利用大数据平台上的机器学习模型深入洞察客户行为、客户需求,客户偏好,挖掘潜出在客户,实现可持续的营销计划。
周期/节奏
2016.4-2016.5 完成需求梳理和业务调研,并在此基础上进行总体方案设计。
2016.5-2016.8 整理银行内、外部数据,根据营销需求制定客户标签和设计文档,实施用户画像。
2016.8-2016.10 在用户画像的基础上,构建理财产品个性化推荐系统。其中包括个性化推荐算法调研,模型对比等一系列工作。
2016.10-2017.1 客户需求预测并对客户价值进行建模,并完善整合精准营销应用模型。
2017.1-2017.3 用户画像、个性化推荐、客户价值预测等精准营销模型上线。
客户名称/所属分类
恒丰银行/客户管理
任务/目标
根据零售业务营销要求,运用多种数据源分析客户行为洞察客户需求,实现精准营销与服务,提高银行客户满意度和忠诚度。
针对不同的客户特征、产品特征和渠道特征,制定不同市场推广策略。为了完成以上任务,主要从以下几个方面构建精准营销系统:
1.用户画像: 结合用户的历史行为和基本属性给用户打标签。
2.精准推荐系统: 给用户推荐个性化理财产品, 例如在微信银行中给每个客户推荐他喜欢的产品,帮客户找到其最适合的产品,增加产品的购买率。
3.需求预测和客户价值: 新产品发售的时候,找到最有可能购买该产品的客户,进行短信营销,进而提高产品响应率。客户价值精准定位,根据客户价值水平制定不同的推荐策略。银行通过计算客户使用其产品与服务后所形成的实际业务收益,充分了解每一个客户的贡献度,为管理层提供决策支撑。
挑战
项目实施过程由用户画像,精准推荐系统,需求预测和客户价值建模三部分组成,采用TDH机器学习平台Discover所提供的算法和模型库进行开发和验证。
(一)用户画像的建立
客户标签主要包含客户基本属性,客户等级标签,客户偏好标签,客户交易特征,客户流失特征,客户信用特征,客户终身价值标签,客户潜在需求标签。
(二)精准推荐系统的建立
由于系统复杂,且篇幅有限,仅对其中最重要的理财推荐系统做详细阐述。精准推荐系统架构图如下。
2.1业务问题转化为机器学习问题
业务问题
银行理财产品个性化推荐给客户。 例如在微信银行中给每个客户推荐此客户喜欢的产品,帮客户找到其最适合的产品,增加产品的购买率。
将业务问题转化为机器学习问题
理财产品种类繁多,产品迭代速度很快,客户在繁多的产品中不能快速找到适合自己的产品,因此有必要建立一个自动化推荐模型,建立客户理财偏好,给客户推荐最适合的产品。
将银行理财产品推荐业务问题转化为机器学习问题,进而利用人工智能技术提高推荐产品的点击率和购买率。例如在恰当的时间,通过用户偏好的渠道给用户推荐产品,推荐的结果为用户购买或者未购买。这个问题可以看作一个典型机器学习二分类问题:基于历史营销数据来训练模型,让模型自动学到客户购买的产品偏好,并预测客户下次购买理财产品的概率。对模型预测出所有客户对所有产品的响应概率进行排序,可选择客户购买概率最高的topN个产品推荐给客户。
下面将叙述如何构建该推荐预测模型。
2.2数据源准备
在建立的一个理财推荐模型之前,可以预见到相似的客户可能会喜好相似的产品(需要表征客户和产品的数据),同一个人的喜好可能具有连续性(购买历史交易数据,包括基金国债等),他的存款、贷款资金可能决定了他能购买什么档次的理财等等。因此,我们需要准备以下数据。
客户基本属性:客户性别,年龄,开户时间,评估的风险等级等等。
产品基本属性:产品的逾期收益率,产品周期,保本非保本,风险等级等。
客户购买理财产品的历史:在什么时候购买什么产品以及购买的金额。
客户的存款历史: 客户历史存款日均余额等。
客户的贷款历史: 客户历史贷款信息等。
客户工资:客户工资的多少也决定了客户购买理财的额度和偏好。
用户画像提取的特征:用户的AUM等级,贡献度,之前购买基金,国债的金额等。
2.3特征转换和抽取
有了这么多数据,但是有一部分特征是算法不能直接处理的,还有一部分数据是算法不能直接利用的。
特征转换
把不能处理的特征做一些转换,处理成算法容易处理的干净特征。举例如下:
开户日期。就时间属性本身来说,对模型来说不具有任何意义,需要把开户日期转变成到购买理财时的时间间隔。
产品特征。从理财产品信息表里面可以得到风险等级,起点金额等。但是并没有标志这款产品是否是新手专属,是否是忠诚客户专属。这就需要我们从产品名字抽取这款产品的上述特征。
客户交易的时间信息。同客户的开户日期,孤立时间点的交易信息不具有任何意义,我们可以把交易时间转变为距离上次购买的时间间隔。
特征抽取
还有一部分数据算法不能直接利用,例如客户存款信息,客户交易信息。我们需用从理财交易和存款表中抽取可能有用的信息。
用户存款信息:根据我们的经验,客户购买理财之前的存款变动信息更能表明客户购买理财的真实想法,因此我们需要从客户历史存款数据抽取客户近三个月,近一个月,近一周的日均余额,以体现客户存款变化。
客户交易信息:客户最近一次购买的产品、购买的金额、及其相关属性,最近一个月购买的产品、购买的金额及其相关属性等等。
以上例举的只是部分特征。
2.4构造、划分训练和测试集
构造
以上说明了如何抽取客户购买理财的相关特征,只是针对正样本的,即客户购买某种理财时候的特征。隐藏着的信息是,此客户当时没有购买其他在发售的产品。假设把客户购买了产品的标签设为1,没有购买的产品样本设为0,我们大致有如下训练样本(只列举部分特征)。
其中客户是否购买产品是我们在有监督训练的标签,也就是我们建立的是一个预测客户是否会购买产的模型。
划分训练集和测试集
考虑到最终模型会预测将来的某时间客户购买某种产品的概率,为了更真实的测试模型效果,以时间来切分训练集和测试集。具体做法如下。假设我们有2016-09-01 ~ 2017-03-20 的理财购买相关数据。以2016-09-01 ~ 2017-03-19的理财交易数据作为训练,2017-03-20这一天的客户对每个产品是否购买的数据作为测试。以2016-09-01 ~ 2017-03-18的理财交易数据作为训练,2017-03-19这一天的客户对每个产品是否购买的数据作为测试,以此类推。
2.5模型训练
根据提取的特征,组成样本宽表,输入到分类模型,这里选择了TDH平台机器学习组件Discover所提供的近百个分布式算法进行建模和训练,同时我们还使用了特征的高阶交叉特性进行推荐的预测和分析。
2.6模型评估
评价推荐好坏的指标很多,比较常用的有
1.ROC曲线下面积(AUC)
2.logloss
3.推荐产品第一次命中rank的倒数(MRR)
4.TopN
针对银行的理财推荐实际业务,客户当天绝大多数是只购买了某一款理财,MRR(Mean Average Precision 的特殊情况)能反应这种情况下推荐的好坏。另一种直观的评价指标是TopN,假定我们只推荐N个模型认为客户最有可能购买的产品,并和真实情况比较,就能得到当天推荐的结果的混淆矩阵,TN,TP,FN,FP,recall,precision等。
我们在生产上验证了最近十天的推荐效果,即测试了2017-03-20, 2017-03-19,…… , 2017-03-11等十天的推荐效果,以下是这些结果的评价。
AUC
Logloss
MRR
0.89
0.45
0.78
也可以把新客户(之前没有购买理财)和老客户(至少购买过一次)分开评估效果。 新客户的购买占了整个理财购买的1/3 以上。
测试新客户的预测效果,可以看出模型对冷启动问题解决的好坏。
对新客户的预测效果
AUC
Logloss
MRR
0.80
0.73
0.32
对老客户的预测效果
AUC
Logloss
MRR
0.92
0.38
0.88
2.7模型优化
1.上线之前的优化:特征提取,样本抽样,参数调参
2.上线之后的迭代,根据实际的A/B testing和业务人员的建议改进模型
(三)需求预测和客户价值
“顾客终生价值”(Customer Lifetime Value)指的是每个购买者在未来可能为企业带来的收益总和。研究表明,如同某种产品一样,顾客对于企业利润的贡献也可以分为导入期、快速增长期、成熟期和衰退期。
经典的客户终身价值建模的模型基于客户RFM模型。模型简单的把客户划分为几个状态,有一定意义但不一定准确,毕竟RFM模型用到的特征不全面,不能很好的表征客户的价值以及客户银行关系管理。
为了方便的对客户终身价值建模,有几个假定条件。其一把客户的购买价值近似为客户为企业带来的总收益,其二把未来时间定义在未来一个季度、半年或者一年。也就是我们通过预测客户在下一个时间段内的购买价值来定义客户的终身价值。因此,我们将预测的问题分为两个步骤:第一步预测这个客户在下一个阶段是否会发生购买(需求预测)。第二步对预测有购买行为的客户继续建模预测会购买多大产品价值。
3.1需求预测
提取客户定活期存款、pos机刷卡、渠道端查询历史等特征,以这些特征作为输入预测用户在当前时间节点是否有购买需求,训练和测试样本构造如下:
1.历史用户购买记录作为正样本。
2.抽样一部分从未购买的理财产品的用户作为负样本集合Un,对于每一个正样本Un中随机选取一个用户构造负样本。
3.选取2016.04-201610 的购买数据作为训练样本,2016.11的数据作为测试样本。
使用机器学习算法进行分类训练和预测,重复上述实验,得到下列结果:
AUC: 0.930451274
precision: 0.8993963783
recall: 0.8357507082
fmeasure: 0.8664062729
进一步对客户分群之后,可以更好的对新客户进行建模,对于老客户我们可以进一步提取他们的历史购买特征,预测他们在下一段时间内购买的产品价值(数量,金额等),对于新客户,可以进根据他的存款量预测其第一次购买的产品价值,把存款客户变成理财客户。通过分析客户存款变动于客户购买理财的关系,我们发现客户购买理财的前一段时间内定活期的增加的有不同的模式,如下图。
根据需求预测模型,我们给出新客户最有可能购买的top N 列表,然后由业务人员进行市场推广。
3.2客户价值预测
进一步预测有购买需求的客户的购买价值高低。这是个回归问题,但是预测变量从二分类变量变为预测连续的金额值。训练的时候预测值取训练周期内(一个月或者季度)客户所购买的总金额。
算出客户的当前价值(即当前阶段购买的产品价值)和未来价值(预测的下一个阶段的客户价值)可以帮助我们鉴定客户处于流失阶段,或者上升阶段,或者是稳定阶段。当前价值取的是当前时间前三个月的交易量。对流失阶段高价值客户可以适当给予营销优惠,对于有购买意向的客户适当引导。如下图所示。
结果/效果
一是提高银行营销准确性。随着客户不断增加,理财产品也在不断推陈出新,在实时精准营销平台的帮助下,银行从以前盲目撒网式的营销方式转变到对不同客户精准触达,提高了理财产品的营销成功率,降低销售和运作成本。理财产品推荐的上线以来,产品推荐成功率比专家经验排序模型最高提升10倍。
二是增加银行获客数量。精准营销系统洞察客户潜在需求和偏好,提高了银行获取目标客户群的准确率。从数百万客户中,通过机器学习模型,找到最有可能购买产品的客户群,通过渠道营销,实现响应率提升。相比传统盲发模式,发送原38%的短信即可覆盖80%的客户。
通过构建基于大数据的精准营销方案,恒丰银行深入洞察客户行为、需求、偏好,帮助银行深入了解客户,并打造个性化推荐系统和建立客户价值预测模型,实现可持续的营销计划。
四、道格拉斯回归需要什么数据
1、LS最小二乘法,可以用于线性回归模型、ARMA等模型
2、TSLS两阶段最小二乘法
3、GMM广义矩估计方法
4、ARCH自回归条件异方差,还可以估计其他各种ARCH模型,如 GARCH、T- GARCH
5、BINARY用于估计二元选择模型,包括 Logit、 Probit和 Extreme value模型
6、ORDERED用于估计有序选择模型
7、CENSORED用于估计删截模型
8、COUNT用于估计计数模型
9、OREG分位数回归分析方法
10、GLM义线性模型分析方法
11、STEPLS分段最小二乘分析方法
12、ROBUSTLS稳健最小二乘分析方法
13、HECKIT赫克曼备择模型
14、BREAKLS带断点的最小二乘分析方法
15、THRESHOLD门限回归分析
16、SWTCHREG转换回归
17、ARDL自回归分布滞后模型
18、IDAS混合数据抽样
1
TSLS两阶段最小二乘法
一个典型的线性回归模型:y= β0 + β1x1+ βX + ε(1),这里y为被解释变量,x1为自变量,或者解释变量,也即“因”。大写的 X为外生控制项向量( 也即一组假定为外生的其他控制变量,例如年龄、性别等等) ,ε则为误差项。如果ε与x1不相关,那么我们可以利用OLS 模型对方程进行无偏估计。
然而,如果一个重要变量x2被模型(1) 遗漏了,且x1和x2也相关,那么对β1的OLS 估计值就必然是有偏的。
此时,x1被称作“内生”的解释变量,这就是 “内生性”问题。遇到“内生性”问题肿木办?有一个方法就是找工具变量Z。
如果存在内生性,则称解释变量为 “内生变量”(endogenousvariable);反之,则称为 “外生变量”(exogenous variable)。
内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量多大,OLS 估计量也不会收敛至真实的参数值。
在计量经济学中,把所有与扰动项相关的解释变量都称为“内生变量”。这与一般经济学理论中的定义有所不同。1。与误差项相关的变量称为内生变量(endogenous variable)。2。与误差项不相关的变量称为外生变量(exogenous variable)。
二阶段最小二乘法Eviews操作介绍:二阶段最小二乘法的第一阶段就是利用原模型的内生解释变量对工具变量进行OLS,得到解释变量的拟合值;第二步,利用得到解释变量的拟合值对原模型进行最小二乘法,从而得到方程模型的估计值,这样就可以消除内生性的影响。
原文阅读:一文读懂内生性问题之二阶段最小二乘法(TSLS)Eviews操作
2
THRESHOLD门限回归分析
阈值回归模型描述了一种简单的非线性回归模型。 TR规范很受欢迎,因为它们很容易。 估计和解释,并能产生有趣的非线性和丰富的动力学。 在TR的应用中,有样品分裂,多重平衡。 非常流行的阈值自回归(TAR)和自激励阈值自回归(SETAR)(Hansen 1999, 2011;波特2003)。
在功能强大的特性中,Eviews有选择最佳阈值TR模型选择工具。能够从候选列表中,并且能够指定两种状态的变化和非变化的变量。例如,您可以轻松地指定两种模式的门限模型并允许EViews 估计最优变量和参数、阈值、系数和协方差。并对变化和回归参数的估计。
门限回归模型是一种重要的结构变化模型,当观测变量通过未知门限时,函数模型具有分段线性的特征,并且区制发生变化。门限回归模型很容易估计和解释,再加上它具备动态性,所以应用比较广泛。门限回归能够应用于多种模型中。
门限变量qt和解释变量Xt、Zt的特征决定了门限函数的类型。如果qt是yt的d期滞后值,则称为自激励(SE)模型;如果门限变量不是被解释变量的滞后变量,则为一般的门限回归(TR)模型。如果解释变量Xt、Zt中仅包含截距项和滞后的被解释变量,则表示自回归(AR)模型。在此基础上易于得出,自激励门限自回归(SETAR)模型中则包括自回归设定和滞后被解释变量两类要素。
639e4823edb8cc50111e59d9a9ba7a4c.png
dbce26b1caac28775a1291712294ae11.png
8cdcef5788cc5eca9e09129a190f5132.png
Estimation Output
334917e0cecd4f7e210f52597ca3fddd.png
fd2d83ff3028c1da90faeff91056796f.png
Criteria Graph and Table If you select View/Model Selection Summary from an estimated threshold equation you will be offered a choice of displaying a Criteria Graph or a Criteria Table:
509f3764eab30874d843fb3810295cf3.png
89921a233e35c7229775aef367dd965a.png
0ebbe0974a3548f360240d621f2005e1.png
3
BREAKLS带断点的最小二乘分析方法
基本普通最小二乘法假设模型的参数不随观测值的变化而变化。尽管这种假设。结构的变化,以及样本区间参数的变化 ,在应用时间序列分析中起着重要的作用。
因此,有大量的研究针对回归方程中参数结构变动的问题。EViews 8提出了结构变动的线性回归估计工具。在Bai (1997), Bai and Perron (1998)中的断点都是已知,先前指定的。
一、Estimating Least Squares with Breakpoints in EViews
案例所需数据介绍,本节以hansen_jep为例,具体数据如下:
caf32e362e649c0ac5b734a1bdcda664.png
要估计一个具有断点的最小二乘方程,请选择Object/New Object….../ Equation or Quick/Estimate Equation,或者从EViews主菜单中选择BREAKLS - Method下拉菜单中带有断点的最小二乘法,或者在命令窗口中简单输入关键字BREAKLS:
a8dff76e26477d684b86f49c67f663b8.png
接下来,单击Options选项卡,显示计算系数协方差矩阵、断点说明、权重和系数名的附加设置。
aafeb487bb386657a01d873c0ceab2bc.png
Break Specification包括如下选项:
The Break specification section of the dialog contains a Method drop-down where you may specify the type of test you wish to perform. You may choose between:
• Sequential L+1 breaks vs. L
• Sequential tests all subsets
• Global L breaks vs. none
• L+1 breaks vs. global L
• Global information criteria
• Fixed number - sequential
• Fixed number - global
• User-specified
这些选项在结构突变检验章节将再次介绍。为了说明断点方程估计的输出,我们使用Han- sen’s (2001)劳动生产率的例子。Hansen的示例使用了1947年2月至2001年4月美国劳动生产率在制造业耐用品行业的测量。工业生产指数与每周平均工时之比增长率。
我们估计一个断点模型,使用DDUR与DDUR(-1)和一个常数的回归。输出如下:
3b8779fe9ce17e64a967f1201d33f517.png
Breakpoint Specification View显示一个断点回归的总结,该方法用于确定断点。输出的顶部显示断点摘要以及剩下的部分显示了断点确定的中间结果:
77b6688e648eb97563890d8583cf6a82.png
2dac73483254db7859fa35daa5d5c4a0.png
二、Example
为了说明这些工具在实践中的使用,我们采用了美国出口实际利率的数据(from Garcia and Perron (1996) that is used as an example by Bai and Perron (2003a).)
选择对象/新对象…从主菜单中 或在命令行中输入命令断点并单击enter。
a2745ee2062aabdd0c8117060d5eebcf.png
Next, click on the Options tab and specify HAC (Newey-West) standard errors, check Allow error distributions to differ across breaks, choose the Bai-Perron Global L breaks vs. none method using the Unweighted-Max F (UDMax) test to determine the number of breaks, and set a Trimming percentage of 15, and a Significance level of 0.05.
96b15a35b2722d6ea8d4d1798a4df540.png
Lastly, to match the test example in Bai and Perron (2003a), we click on the HAC Options button and set the options to use a Quadratic-Spectral kernel with Andrews automatic bandwidth and single pre-whitening lag:
813e82543f980cff9136072fba4706ed.png
输出结果为:
d85919d0d008bc138d3da17b9abc9cff.png
点击视图/实际,拟合,剩余/实际,拟合,残差图,在原始序列和残差的旁边,查看样本内的拟合数据:
c80b2f91f30210d4d43b573278853140.png
未完待续!
◆◆◆◆
精彩回顾
6f4317c5ad1ee068da228571e7a38922.png
点击上图查看:
计量经济学小白必修课--网课《高级计量经济学及Eviews应用》震撼上架!
9ff111c0b4810753b7b65a81065a7931.png
点击上图查看:
《初级计量经济学及Stata应用:Stata从入门到进阶》
3ec7be2e15086249d5d7ef268047064a.png
点击上图查看:
《高级计量经济学及Stata应用:Stata回归分析与应用》
相关资源:柯布-道格拉斯(Cobb-Douglas)生产函数模型_柯布道格拉斯生产函数...
点击阅读全文
打开CSDN,阅读体验更佳
参与评论 请先 登录 后发表或查看评论
matlab进行道格拉斯筛选,柯布-道格拉斯(Cobb-Douglas)生产函数模型.doc...
α , β—— K 和 L 的产出弹性. 经济学中著名的柯布-道格拉斯(Cobb-Douglas)生产函数的一般形式为 Q(K , L) = aK α Lβ , 0 < α , β < 1 (1-1) 其中Q, K , L 分别表示产值、资金、劳动力,式中α , β ...
[渝粤教育] 九江学院 计量经济学 参考 资料_wx_yuyueshool的博客-CSDN博...
B、在柯布—道格拉斯生产函数中,检验规模报酬是否不变。 C、在回归方程中,检验结构是否存在变化。 D、在回归方程中,检验误差项是否服从正态分布。 E、在回归方程中,检验某一参数是否异于零。
柯布-道格拉斯(Cobb-Douglas)生产函数模型
柯布-道格拉斯(Cobb-Douglas)生产函数模型,齐微,,柯布-道格拉斯生产函数(Cobb-Douglas production function)用来预测国家和地区的工业系统或大企业的生产和分析发展生产的途径的一种经济数
Eviews实现ARDL的步骤.docx
Eviews实现ARDL 自回归分布滞后模型 EViews 9及以上版本提供了ARDL,自回归分布滞后模型的工具,变量包括了滞后变量和常规解释变量。 其中,EViews 内置了滞后阶数的选择;协整估计;长期趋势的Bounds检验。
CD案例分析
本文是对CD案例的一个总结,主要是根据用户消费记录,分析用户消费行为,建立RFM模型,分析复购率、回购率等关键指标。希望对其他产品的线上消费数据分析有一定的借鉴价值。 分析过程 准备工作(数据集观察与数据清洗) 用户消费趋势分析(按月)——每月消费总金额、消费次数、产品购买量、消费人数、用户平均消费金额、用户平均消费次数 用户个体消费分析——用户消费金额,产品购买量的描述性统计、用户消费金额和产品购买量分布、用户累计消费金额占比 用户消费行为分析——用户第一次消费(首购)时间分布、用户最后一次消费时间分布
继续访问
回归系数b的经济含义_计量经济学常见问题汇总
来源| 本文由计量经济学服务中心整理转载请联系计量经济学相关问题1计量经济学是分析啥的?包含些什么内容?计量经济学的主要用途或目的主要有两个方面:1、理论检验。2、预测应用。研究对象:计量经济学的两大研究对象:横截面数据(Cross-sectional Data)和时间序列数据(Time-series Data)。前者旨在归纳不同经济行为者是否具有相似的行为关联性,以模型参数估计...
继续访问
[Day2]计量经济学之ARDL模型
ARDL模型模型结构建模步骤 模型结构 ARDL(p,q1,q2)的结构是ϕ(L,p)yt=β1t(L,q1)x1t+β2t(L,q2)x2t+δWt+ut\phi(L,p)y_{t}=\beta1_{t}(L,q1)x_{1t}+\beta2_{t}(L,q2)x_{2t}+\delta W_{t}+u_{t}ϕ(L,p)yt=β1t(L,q1)x1t+β2t(L,q2)x2t+δWt+ut 建模步骤 第一步,建立与该ARDL模型想对应的的ECM模型,并计算其下统计量,以此判断是否存在长期的
继续访问
eviews怎么回归道格拉斯生产函数_【干货分享】Eviews估计方法汇总
1最小二乘法(1)普通最小二乘估计(OLS):这是使用的最为普遍的模型,基本原理就是估计残差平方和最小化,不予赘述。(2)加权最小二乘估计(WLS) Eviews路径:LS模型设定对话框-----options OLS的假设条件最为严格,其他的估计方法往往是在OLS的某些条件无法满足的前提下进行修正处理的。WLS就是用来修正异方差问题的。 在解释变量...
继续访问
ardl模型stata命令_小白学统计|面板数据分析与Stata应用笔记(三)
#文章首发于公众号“如风起”。原文链接:小白学统计|面板数据分析与Stata应用笔记(三)mp.weixin.qq.com面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程,笔记中部分图片来自课程截图。笔记内容还参考了陈强教授的《高级计量经济学及Stata应用(第二版)》长面板数据分析上两篇笔记我们讲到了短面板数据分析。短面板数据分析主要关注对不可观...
继续访问
面板数据分析复习总结
一、混合回归和固定效应模型和随机效应模型 类型、特点、基本假定、模型估计、模型设定检验、检验判定 二、固定效应模型和随机效应模型的不同点 三、SUR模型、SWAMY模型、HSiao模型 类型、特点、基本假定、模型估计、特点 四、平均个体回归模型和平均时间回归模型 五、各种检验的优缺点 ...
继续访问
ardl模型stata命令_二值模型的Stata命令
二值模型的 Stata 命令为probit y x1 x2 x3,r (probit 模型) logit y x1 x2 x3,r or (logit 模型) 选择项“r”表示使用稳健标准误(默认为普通标准误);选择项“or”表示显示几率比(odds ratio),不显示回归系数。完成 Probit 或 Logit 估计后,可进行预测,计算准确预测的百分比,或计算边际效应:predict y1 (...
继续访问
ardl模型stata命令_Stata新命令快讯: 有向无环图、模糊倍分法等
Stata 连享会: 知乎 | 简书 | 码云连享会 最新专题 直播编者按: 自今日起,Stata 连享会 (公众号 StataChina) 将开设「Stata新命令快讯」专栏,定期推送 SSC 网站上发布的最新命令,对于我们认为重要的命令进行标注。 对于您感兴趣的命令,可以直接在 Stata 命令窗口中输入 ssc install 命令名称, replace 进行下载。下载完成...
继续访问
ARDL模型笔记
毕业论文打算用ARDL模型做,所以查了一些资料,虽然以后可能不会再用了,说到底也是一个经验。可能有错误,还望赐教。 1.ARDL:Autoregressive distributed lagged model Yt= a*Yt-1 +b*Xt + c*Xt-1 + ...+ d 是基于自回归的拓展,加入了其他滞后项,在模型的构建上是格兰杰因果的进一步发展,但对于回归结果的显著性并没
继续访问
8145v5 参数_参数估计
一、估计量与估计值、点估计、区间估计1、参数估计:用样本统计量去估计总体的参数。2、估计量:用于估计总体参数的统计量的名称如样本均值,样本比例,样本方差等例如:样本均值就是总体均值 的一个估计量3、参数用 表示4、估计值:估计参数时计算出来的统计量的具体值如果样本均值 =80,则80就是 的估计值5、点估计用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估...
继续访问
浙江大学【面板数据分析与STATA应用】——第三讲内生性与工具变量法
解释变量和误差项存在内生性问题 内生性问题来源 内生性问题主要来自于三个方面,分别为:遗漏变量、联立性以及度量误差 遗漏变量 遗漏变量是指可能与解释变量相关的变量,本来应该加以控制,但却没有控制的变量。这些变量最后进入了误差项,从而导致误差项与解释变量相关,进而导致了内生性问题。 联立性 联立性是指一个计量方程中的核心解释变量A对被解释变量B产生影响,反过来,被解释变量B又对A产生影响。 如果B对A有正向的影响,正向冲击就会导致A增加,从而导致核心解释变量A与误差项正相关。 如果B对A有负向的影响,正向
继续访问
最新发布 eviews怎么回归道格拉斯生产函数_受限因变量模型及Eviews应用
1前言在现实生活中,有时候会遇到这样的额问题,因变量是连续的,但是会受到某种限制,这时候就不能按照一般的模型进行估计。有时候所谓的因变量的观测值来源于总体的一个受限制的子集,但是却不能完全的反应总体的实际特征,此时需要用到建立首先因变量模型俩腿短总体的特征。例如我们在对居民收入做调查时候,通常会有一个区间,例如大于5万的取一个值,然后小于2000的取一个值。这个时候这个最低的和最高的我们...
继续访问
基于柯布-道格拉斯生产函数的煤矿产能分析研究
正确的产能分析方法对于煤矿优化人员结构,提升效率极为重要。基于柯布-道格拉斯生产函数,以美国井工矿为例,分析了人员投入与产能之间的关系,得出美国井工矿现有人员条件下合理产能区间。对于我国西部优质煤炭产能释放过程中人员结构规划提供了有益借鉴。
eviews教程之CES生产函数
比较方便快的计算CES生产函数计算步骤及过程。
ARDL模型 eviews操作详细分析
评论留言说明你的需要。 ARDL模型 eviews操作详细分析
继续访问
Eviews 8.0&9.0界面新功能介绍
Eviews 8.0&9.0界面新功能介绍 本文其中一些是自己的整理,也有一些是经管之家论坛中一位热心、好学坛友的整理,其中只是简单介绍一下这两个新版本的部分特性,分享出来,有兴趣的看客可以一起学习、进步。 Eviews 8 一、变量显示 估计参数界面得到加强,打入头几个词,会有相关关联字段的出现,方便写入变量。 二、工作表的详
继续访问
热门推荐 使用Eviews做简单线性回归
写论文过程中,发现管理类哟呵发文,大多数是写数理模型,一般刊物上的文章都是提出一个模型,然后使用算例来证明模型的可行性和有效性。但是管理类论文的这套老做法已经很难行的通了。相比之下,经济类的论文发表在一般刊物上的做法就是使用计量经济模型对一些经济现象或规律进行实证研究,相对来讲这套做法仍旧是行得通的。以前轻视回归的我,现在再也不敢轻视回归模型了。因为计量经济学数理模型方法的核心就是回归模型。以前正
继续访问
eviews命令
本命令集几乎涵盖了 Eviews 中所有命令,视图和过程的完整列表我们分为基本命令、矩阵和字符串函数以及编程语言三个面加以介绍,在每一个面的列表按照字母顺序排。
eviews柯布道格拉斯生产函数。
以上就是关于rfm分析法应用案例相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: