跳转至

关联规则、关联网络分析

省流

在数学建模比赛中,关联规则和关联网络分析是两种重要的数据挖掘技术,适用于发现数据中隐藏的模式和关系。以下是它们的核心作用、应用场景及典型问题的分析:

---

### **一、关联规则分析(Association Rule Mining)**

#### **1. 核心作用**

- 发现数据中频繁共现的项集,揭示变量之间的“如果发生A,则可能发生B”的关联性。
- 关键指标:支持度(A和B同时出现的概率)、置信度(A出现时B出现的概率)、提升度(排除随机性的关联强度)。

#### **2. 能解决的问题**

- **消费行为分析**:超市购物篮中商品搭配规律(经典“啤酒与尿布”案例)。
- **推荐系统**:根据用户历史行为推荐相关商品或内容(如电商、视频平台)。
- **疾病诊断**:症状与疾病之间的关联(如某种症状组合预示特定疾病)。
- **用户行为模式**:网页点击流分析(用户访问页面A后常跳转至页面B)。

#### **3. 数学建模中的典型应用**

- **题目类型**:涉及组合优化、行为预测、资源分配的问题。
- **案例**:
  - 设计超市货架布局(基于商品关联性优化摆放位置)。
  - 预测疫情中药品销售趋势(如感冒药与口罩销量关联)。
  - 分析学生选课模式,优化课程排班策略。

#### **4. 常用算法**

- **Apriori**:通过逐层搜索生成频繁项集。
- **FP-Growth**:利用树结构高效压缩数据,避免多次扫描数据库。

---

### **二、关联网络分析(Association Network Analysis)**

#### **1. 核心作用**

- 构建实体间关系的网络(图结构),分析节点间的连接模式及整体拓扑特征。
- 关键指标:节点中心性(影响力)、社区结构(子群聚类)、路径分析(信息传播路径)。

#### **2. 能解决的问题**

- **社交网络分析**:识别意见领袖(高中心性节点)、发现社群结构。
- **生物信息学**:基因/蛋白质相互作用网络中的关键节点(潜在药物靶点)。
- **交通网络优化**:分析城市交通流量瓶颈或关键枢纽。
- **传播动力学**:疫情传播路径、谣言扩散范围预测。

#### **3. 数学建模中的典型应用**

- **题目类型**:涉及复杂系统、传播过程、资源分配或影响力最大化的问题。
- **案例**:
  - 优化物流网络(识别关键中转站,降低运输成本)。
  - 预测舆情传播路径,制定应急响应策略。
  - 分析电力网络脆弱性(防止级联故障)。

#### **4. 常用方法**

- **社区发现算法**:如Louvain算法、标签传播算法。
- **中心性计算**:度中心性、接近中心性、介数中心性。
- **可视化工具**:Gephi、Cytoscape(增强结果呈现效果)。

---

### **三、数学建模中的使用建议**

1. **数据预处理**:
   - 关联规则:需将数据转换为事务型格式(如购物篮的0-1矩阵)。
   - 网络分析:明确节点和边的定义(如用户为节点,互动为边)。
1. **模型融合**:
   - 结合聚类算法(如K-means)与关联规则,发现分群内的局部规律。
   - 在网络分析中嵌入传播模型(如SIR模型)预测动态过程。
1. **结果解释性**:
   - 关联规则需过滤冗余规则(如提升度<1的无意义规则)。
   - 网络分析需结合具体场景解释社区划分(如社交网络中的兴趣群体)。
1. **创新点挖掘**:
   - 在传统方法上改进(如加权关联规则、动态网络分析)。
   - 结合可视化技术增强评委对复杂关系的理解。

---

### **四、典型赛题场景**

- **电商优化题**:用关联规则分析用户购买组合,设计促销策略;用网络分析刻画用户-商品二部图,优化推荐算法。
- **公共卫生题**:用关联规则发现疾病与生活习惯的关系;用传播网络模拟疫情扩散并制定封控策略。
- **交通规划题**:用网络分析识别城市路网关键节点;用关联规则挖掘交通事故与天气、路段特征的关联。

---

通过灵活运用这两种方法,可以高效挖掘数据中的潜在规律,为数学建模问题提供强有力的分析工具。建议结合具体题目选择方法,并注重结果的实际意义和可解释性。

算法介绍

在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。

若两个或多个变量的取值之间存在某种规律性,就称为**关联**

关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。

“在购买计算机的顾客中,有30%的人也同时购买了拧印机"

关联分析中:一个样本称为一个“事务”,每个事务由多个属性来决定,这里叫做“”,多个项组成的集合称为“项集”。

关于项集(多个项组成的集合):

  • { 牛奶 } 是 1-项集
  • { 牛奶,果冻 } 是 2-项集;
  • { 啤酒,面包,牛奶 } 是 3-项集

X==>Y含义(规则):

  • X和Y是项集
  • 规则X==>Y表示物品集X对物品集Y的 支持度,也就是物品集X和物品集Y 同时出现的概率

两个指标:

  • 支持度:一个规则在 所有事务中出现的频率,σ(X):表示项集X的支持度计数。
  • 置信度:确定Y在包含X的事务中出现的频繁程度。反映了关联规则的可信度,即购买了项目集X中的商品的顾客同时也购买了Y中商品的概率。

规则说明:

一般地,我们会定义最小支持度和最小置信度,若规则X==>Y的支持度分别大于等于我们定义的最小支持度和最小置信度,则称关联规则X==>Y为 强关联规则,称为频繁项集,否则称为弱关联规则。我们通常会把注意力放在强关联规则上。

关联规则、关联网络分析

网络分析:

是一种用于研究网络结构和节点之间关系的方法,主要应用于社交网络。

网络分析中的节点:

表示网络中的实体,例如人、组织、设备等。

边:

表示节点之间的关系,例如信息传递、交易、连接等。

网络分析中的中心性和关键性:

中心性主要关注节点在网络中的核心性;关键性则关注边在网络中的是否起到桥梁的作用。

image-20250311115227463