机器学习简介¶

监督式机器学习：为模型提供特征和目标变量，然后模型会计算出如何使用这些特征达成目标。

确定问题，理解问题，选择解决方案

分析可用数据集并决定是否收集数据。问题：1. 数据集太小；2.过于嘈杂

把数据转换为可用作模型输入的表格形式

训练数据集-验证数据集-模型数据集

下文中，你将学到：¶

读取
数据处理：「缺失值」查看变量类型-发现数字是文本-猜测导致原因是有空白「缺失值」文本列转化为数字类型，并检查缺失值以验证猜想「缺失值」用0填充缺失值所有列名小写并用下划线代替空格「没必要随便」目标变量数字化（“yes”->1，而非"1"->1）拆分-训练集、验证集、检查集
初步数据分析：检查缺失值计算流失率分别存储分类特征与数值特征的列名查看分类变量有多少唯一值
特征重要性分析：流失率-数值差越大越好风险率-求比值相关系数
特征工程用DictVectorizer统一调用One-Hot
模型：直接用LogisticRegression
预测
检查

数据处理用字符意义替换数值表示（为了直观理解？）缺失值替换1（原数据中表示为99999999）删除未知结果的数据拆分-训练集、验证集、检查集缺失值替换2（原数据中表示为NaN）使用One-HOT

数据封装 XGBoost预设 PS：性能监控预设