关联规则、关联网络分析
算法介绍¶
在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。
若两个或多个变量的取值之间存在某种规律性,就称为**关联**
关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。
“在购买计算机的顾客中,有30%的人也同时购买了拧印机"
关联分析中:一个样本称为一个“事务”,每个事务由多个属性来决定,这里叫做“项”,多个项组成的集合称为“项集”。
关于项集(多个项组成的集合):
- { 牛奶 } 是 1-项集
- { 牛奶,果冻 } 是 2-项集;
- { 啤酒,面包,牛奶 } 是 3-项集
X==>Y含义(规则):
- X和Y是项集
- 规则X==>Y表示物品集X对物品集Y的 支持度,也就是物品集X和物品集Y 同时出现的概率。
两个指标:
- 支持度:一个规则在 所有事务中出现的频率,σ(X):表示项集X的支持度计数。
- 置信度:确定Y在包含X的事务中出现的频繁程度。反映了关联规则的可信度,即购买了项目集X中的商品的顾客同时也购买了Y中商品的概率。
规则说明:
一般地,我们会定义最小支持度和最小置信度,若规则X==>Y的支持度分别大于等于我们定义的最小支持度和最小置信度,则称关联规则X==>Y为 强关联规则,称为频繁项集,否则称为弱关联规则。我们通常会把注意力放在强关联规则上。
关联规则、关联网络分析¶
网络分析:
是一种用于研究网络结构和节点之间关系的方法,主要应用于社交网络。
网络分析中的节点:
表示网络中的实体,例如人、组织、设备等。
边:
表示节点之间的关系,例如信息传递、交易、连接等。
网络分析中的中心性和关键性:
中心性主要关注节点在网络中的核心性;关键性则关注边在网络中的是否起到桥梁的作用。