机器学习工程师纳米学位

监督式学习

项目:为 CharityML 寻找捐赠者

安装

本项目要求安装 Python 2.7 和以下 Python 库:

你还需要安装软件,才能运行并执行 Jupyter Notebook

我们建议学员安装 Python 的 Anaconda 分发系统,该系统已经包含上述软件包,并且包含项目所需的其他软件包。

代码

你可以在 notebook 文件 finding_donors.ipynb 中找到代码模板。你还将被要求使用 Python 文件 visuals.py 和数据集文件 census.csv 来完成你的任务。我们已经提供了一些初始代码来帮助你开始,你需要补充额外函数来顺利完成本项目。请注意,学员无需更改 visuals.py 中的代码。如果你对 notebook 中的可视化文件感兴趣,请随意探索。

运行

在终端或命令行窗口中,跳转至最上面的项目目录 finding_donors/(包含 README 文件),并运行如下命令:

ipython notebook finding_donors.ipynb

或者

jupyter notebook finding_donors.ipynb

这将在你的浏览器中打开 iPython Notebook 软件和项目文件。browser.

数据

修改后的人口普查数据集包含近 32000 个数据点,每个数据点有 13 个特征。该数据集是 Ron Kohavi 发表的论文“放大朴素贝叶斯分类器的准确性:决策树混合(Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid)”中数据集的修改版。你也可以在网上找到这篇论文,在 UCI 中有原始数据。

特征

目标变量