省流¶

### **线性回归（Linear Regression）**

**1. 核心作用**

- **建模变量关系**：量化自变量（X）与连续型因变量（Y）的线性关联。  
- **预测与解释**：预测Y值，分析X对Y的影响程度（如系数正负、大小）。

**2. 能解决的问题**

- **连续值预测**：如房价预测（基于面积、位置等）、销量预估（广告投入与销量关系）。  
- **影响因素分析**：识别关键驱动因素（如影响患者血糖水平的关键指标）。  
- **假设检验**：验证变量间是否存在显著线性关系（通过p值、R²）。

**3. 典型应用场景**

- **经济**：收入与消费关系建模  
- **医学**：药物剂量与疗效分析  
- **教育**：学习时长与成绩相关性研究  
- **工程**：材料强度与温度/压力的关系

**4. 常用方法**

- **最小二乘法**：经典解法，最小化预测误差平方和。  
- **正则化改进**：岭回归（防过拟合）、Lasso回归（特征选择）。  
- **多元线性回归**：多自变量建模（需注意多重共线性）。

**5. 使用建议**

- **数据要求**：线性、独立性、正态性、同方差性（需检验残差）。  
- **预处理**：标准化/归一化、处理异常值、填补缺失值。  
- **模型验证**：R²（拟合优度）、调整R²、F检验、交叉验证。

---  
**简练总结**：线性回归是 **量化变量线性关系的基础工具**，适用于 **连续值预测与因素分析**，数学建模中广泛用于经济、医学等领域的因果推断题，需警惕 **非线性关系或混杂因素干扰**。


### **逻辑回归（Logistic Regression）**

**1. 核心作用**

- **分类预测**：输出概率值（0~1），解决二分类或多分类问题（如是否患病、用户购买意愿）。  
- **变量关系分析**：量化自变量对分类结果的影响（通过系数符号和大小）。

**2. 能解决的问题**

- **二分类预测**：如信用违约预测、疾病诊断（阳性/阴性）。  
- **多分类扩展**：如文本分类（新闻主题识别）、客户分层（高/中/低风险）。  
- **特征重要性排序**：识别关键影响因素（如影响用户流失的核心变量）。

**3. 典型应用场景**

- **医疗**：肿瘤良恶性判断  
- **金融**：贷款风险评估、欺诈检测  
- **营销**：用户点击率预测（广告转化分析）  
- **社会科学**：选举投票倾向研究

**4. 常用方法**

- **二元逻辑回归**：经典二分类模型（Sigmoid函数转换）。  
- **多项逻辑回归**：Softmax函数处理多分类。  
- **正则化**：L1/L2正则防止过拟合（尤其特征维度高时）。  
- **评估指标**：ROC-AUC、混淆矩阵、精确率/召回率。

**5. 使用建议**  
- **数据要求**：类
- 别均衡（不平衡数据需过采样/欠采样）。  
- **预处理**：特征缩放（加快收敛）、处理多重共线性。  
- **模型选择**：优先逻辑回归若需可解释性；复杂分类问题可转向SVM/随机森林。

---  
**简练总结**：逻辑回归是 **分类问题的基础模型**，适用于 **概率预测与因素解释**，数学建模中常见于医疗、金融等二分类赛题，需关注 **数据线性可分性**和 **特征相关性检验**。

引入¶

逻辑回归的思想是基于线性回归的，但有几个关键的不同点。

在线性回归中，我们试图拟合一个线性方程来预测一个连续的输出值。然而，在逻辑回归中，我们不是直接预测输出值，而是预测输出值属于某一特定类别的概率。

线性回归¶

线性回归用于连续值预测，其目标是最小化预测值与真实值之间的差异。它直接输出结果，通常使用均方误差（MSE）作为损失函数：

\[ \text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 \]

其中，\(y_i\) 是真实值，\(\hat{y}_i\) 是预测值，\(n\) 是样本数量。

逻辑回归¶

逻辑回归用于概率分类，其目标是估计事件发生的概率。逻辑回归通过 Sigmoid 转换将线性组合的输出映射到 [0, 1] 区间内，通常使用交叉熵损失函数：

\[ \text{交叉熵损失} = -\frac{1}{n} \sum_{i=1}^n \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right] \]

其中，\(y_i\) 是真实标签（0 或 1），\(p_i\) 是预测的概率，\(n\) 是样本数量。

共同点¶

线性模型结构：两者都基于线性组合的结构，即 \(w^T x + b\)。
使用梯度下降：两者通常使用梯度下降算法来优化损失函数。
需要特征工程：两者都需要对特征进行适当的处理和选择，以提高模型的性能。

评估指标¶

1. 理论介绍¶

混淆矩阵

真实结果预测结果	正例	反例
正例	真正例 (TP)	伪反例 (FN)
反例	伪正例 (FP)	真反例 (TN)

评价指标	定义	评价标准
准确率	正确预测的样本占总样本的比例。	适用于类别分布较为均匀的情况。高准确率意味着模型预测较为准确。
精确率	正例预测中正确占的比例，即 \(\text{Precision} = \frac{TP}{TP + FP}\)。	适用于假阳性 (FP) 较为严重的场景。精确率越高，假阳性越少。
召回率	实际正例中被正确预测为正例的比例，即 \(\text{Recall} = \frac{TP}{TP + FN}\)。	适用于假阴性 (FN) 较为严重的场景。召回率越高，漏诊越少。
F1 分数	精确率和召回率的调和平均数，即 \(\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\)。	适用于精确率和召回率之间需要平衡的情况。F1 分数越高，模型效果越好。
AUC (ROC)	ROC 曲线下的面积，表示模型区分正负样本的能力，值范围为 0 到 1。AUC 越大，模型的表现越好。	AUC 越接近 1，表示模型性能越好。通常认为 AUC > 0.7 表示模型有较好的表现。