跳转至

省流

### **线性回归(Linear Regression)**

**1. 核心作用**

- **建模变量关系**:量化自变量(X)与连续型因变量(Y)的线性关联。  
- **预测与解释**:预测Y值,分析X对Y的影响程度(如系数正负、大小)。

**2. 能解决的问题**

- **连续值预测**:如房价预测(基于面积、位置等)、销量预估(广告投入与销量关系)。  
- **影响因素分析**:识别关键驱动因素(如影响患者血糖水平的关键指标)。  
- **假设检验**:验证变量间是否存在显著线性关系(通过p值、R²)。

**3. 典型应用场景**

- **经济**:收入与消费关系建模  
- **医学**:药物剂量与疗效分析  
- **教育**:学习时长与成绩相关性研究  
- **工程**:材料强度与温度/压力的关系

**4. 常用方法**

- **最小二乘法**:经典解法,最小化预测误差平方和。  
- **正则化改进**:岭回归(防过拟合)、Lasso回归(特征选择)。  
- **多元线性回归**:多自变量建模(需注意多重共线性)。

**5. 使用建议**

- **数据要求**:线性、独立性、正态性、同方差性(需检验残差)。  
- **预处理**:标准化/归一化、处理异常值、填补缺失值。  
- **模型验证**:R²(拟合优度)、调整R²、F检验、交叉验证。

---  
**简练总结**:线性回归是 **量化变量线性关系的基础工具**,适用于 **连续值预测与因素分析**,数学建模中广泛用于经济、医学等领域的因果推断题,需警惕 **非线性关系或混杂因素干扰**。


### **逻辑回归(Logistic Regression)**

**1. 核心作用**

- **分类预测**:输出概率值(0~1),解决二分类或多分类问题(如是否患病、用户购买意愿)。  
- **变量关系分析**:量化自变量对分类结果的影响(通过系数符号和大小)。

**2. 能解决的问题**

- **二分类预测**:如信用违约预测、疾病诊断(阳性/阴性)。  
- **多分类扩展**:如文本分类(新闻主题识别)、客户分层(高/中/低风险)。  
- **特征重要性排序**:识别关键影响因素(如影响用户流失的核心变量)。

**3. 典型应用场景**

- **医疗**:肿瘤良恶性判断  
- **金融**:贷款风险评估、欺诈检测  
- **营销**:用户点击率预测(广告转化分析)  
- **社会科学**:选举投票倾向研究

**4. 常用方法**

- **二元逻辑回归**:经典二分类模型(Sigmoid函数转换)。  
- **多项逻辑回归**:Softmax函数处理多分类。  
- **正则化**:L1/L2正则防止过拟合(尤其特征维度高时)。  
- **评估指标**:ROC-AUC、混淆矩阵、精确率/召回率。

**5. 使用建议**  
- **数据要求**:类
- 别均衡(不平衡数据需过采样/欠采样)。  
- **预处理**:特征缩放(加快收敛)、处理多重共线性。  
- **模型选择**:优先逻辑回归若需可解释性;复杂分类问题可转向SVM/随机森林。

---  
**简练总结**:逻辑回归是 **分类问题的基础模型**,适用于 **概率预测与因素解释**,数学建模中常见于医疗、金融等二分类赛题,需关注 **数据线性可分性**和 **特征相关性检验**。

引入

逻辑回归的思想是基于线性回归的,但有几个关键的不同点。

在线性回归中,我们试图拟合一个线性方程来预测一个连续的输出值。然而,在逻辑回归中,我们不是直接预测输出值,而是预测输出值属于某一特定类别的概率。

线性回归

线性回归用于连续值预测,其目标是最小化预测值与真实值之间的差异。它直接输出结果,通常使用均方误差(MSE)作为损失函数:

\[ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 \]

其中,\(y_i\) 是真实值,\(\hat{y}_i\) 是预测值,\(n\) 是样本数量。

逻辑回归

逻辑回归用于概率分类,其目标是估计事件发生的概率。逻辑回归通过 Sigmoid 转换将线性组合的输出映射到 [0, 1] 区间内,通常使用交叉熵损失函数:

\[ \text{交叉熵损失} = -\frac{1}{n} \sum_{i=1}^n \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right] \]

其中,\(y_i\) 是真实标签(0 或 1),\(p_i\) 是预测的概率,\(n\) 是样本数量。

共同点

  • 线性模型结构:两者都基于线性组合的结构,即 \(w^T x + b\)
  • 使用梯度下降:两者通常使用梯度下降算法来优化损失函数。
  • 需要特征工程:两者都需要对特征进行适当的处理和选择,以提高模型的性能。

评估指标

1. 理论介绍

混淆矩阵

真实结果 预测结果 正例 反例
正例 真正例 (TP) 伪反例 (FN)
反例 伪正例 (FP) 真反例 (TN)
评价指标 定义 评价标准
准确率 正确预测的样本占总样本的比例。 适用于类别分布较为均匀的情况。高准确率意味着模型预测较为准确。
精确率 正例预测中正确占的比例,即 \(\text{Precision} = \frac{TP}{TP + FP}\) 适用于假阳性 (FP) 较为严重的场景。精确率越高,假阳性越少。
召回率 实际正例中被正确预测为正例的比例,即 \(\text{Recall} = \frac{TP}{TP + FN}\) 适用于假阴性 (FN) 较为严重的场景。召回率越高,漏诊越少。
F1 分数 精确率和召回率的调和平均数,即 \(\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\) 适用于精确率和召回率之间需要平衡的情况。F1 分数越高,模型效果越好。
AUC (ROC) ROC 曲线下的面积,表示模型区分正负样本的能力,值范围为 0 到 1。AUC 越大,模型的表现越好。 AUC 越接近 1,表示模型性能越好。通常认为 AUC > 0.7 表示模型有较好的表现。