关联规则算法原理(关联规则算法原理图)
大家好!今天让创意岭的小编来大家介绍下关于关联规则算法原理的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、apriori关联规则算法
解释如下:
Apriori是基于广度优先的关联规则算法,即从频繁1项集开始,采用频繁k项集搜索频繁k+1项集,直到不能找到包含更多项的频繁项集为止。
二、利用关联规则实现推荐算法
关联规则是以规则的方式呈现项目之间的相关性:关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
关联规则的经典例子是通过发现顾客放入其购物篮中的不同商品之间的联系,可分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,可以帮助零售商制定营销策略。在医学方面,研究人员希望能够从已有的成千上万份病历中找到患某种疾病的病人的共同特征,寻找出更好的预防措施。
它是一种购物车的分析方法,用于揭示产品之间的关联关系。
他有三个简单的公式:
Support(X, Y) = Freq(X, Y) / N :它表示 X 和 Y 一起出现的概率。它是 X 和 Y 一起出现的频率除以 N。
Confidence(X, Y) = Freq(X, Y) / Freq(X) :表示购买产品X时购买产品Y的概率。X 和 Y 一起出现的频率除以 X 出现的频率。
Lift = Support(X, Y) / (Support(x) * Support (Y)) :当购买X时,购买Y的概率增加了lift的倍数。X 和 Y 一起出现的概率是 X 和 Y 分别出现的概率的乘积。它陈述了一个表达式,例如当我们购买一种产品时,购买另一种产品的概率会增加多少倍。
下面我们将使用Apriori Algorithm向用户推荐相应的产品
这里我们使用的数据集是online retail II dataset
我们使用这个函数来确定数据的阈值。
下面这个函用阈值替换了异常值。
第三个函数中我们从数据中提取包含“C”的值。“C”表示退回的物品。要计算总价,变量数量和价格必须大于零。在这个函数中还调用了 Outlier 和 Threshold 函数。
数据集中的收据(Invoice)包含了产品的购买,所以我们先处理这个
根据 Invoice 和 Description,我们通过 groupby 计算 Quantities,可以计算产品的数量。
我们使用 unstack 来避免重复的索引,使用 iloc 来显示前 5 个观察结果。如果产品不在收据中,则 使用NA 表示。
进行独热编码。把 NA 的地方写 0。
如果发票中的产品数量大于0,我们就写1,如果小于0或0,我们就写0。用apply对行或列进行操作。这里将通过应用 applymap 并执行操作来遍历所有单元格。
我们创建了一个名为 create_invoice_df 的函数。如果想根据id变量搜索并得到结果,它会根据stockcode进行与上述相同的操作。如果我们输入的id为False,它会根据Description执行上面的操作。
通过将我们用 Apriori 找到的Support插入到 association_rules 函数中,找到一些其他的统计数据,例如置信度和提升度。
POST产品和编号为22326的产品同时出现的概率为0.225383。被一起买的概率是0.275401。同时购买这两种产品的概率增加为1.123735。
数据集地址: https://archive.ics.uci.edu/ml/datasets/Online+Retail+II
原文地址: https://www.overfit.cn/post/2f372e4dc8254fd3bd5ceb6e20aaa75d
三、关联规则算法的关联规则的定义
所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候,可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度。
设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度(support)。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。
关联规则就是形如XY的逻辑蕴含关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。
支持度是指规则中所出现模式的频率,如果事务数据库有s%的事务包含XY,则称关联规则XY在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(XY)= P(XY)。信任度是指蕴含的强度,即事务D中c%的包含X的交易同时包含XY。若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率P(Y|X),即confidence(XY)= P(Y|X)。
四、apriori算法是什么?
经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。
apriori算法多次扫描交易数据库,每次利用候选频繁集产生频繁集;而FP-growth则利用树形结构,无需产生候选频繁集而是直接得到频繁集,大大减少扫描交易数据库的次数,从而提高了算法的效率,但是apriori的算法扩展性较好,可以用于并行计算等领域。
基本算法:
Apriori algorithm是关联规则里一项基本算法
Apriori算法将发现关联规则的过程分:
第一通过迭代,检索出事务数据库1中的所有频繁项集,即支持度不低于用户设定的阈值的项集;
第二利用频繁项集构造出满足用户最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。
以上就是关于关联规则算法原理相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: