机器学习-监督学习-朴素贝叶斯

January 23rd, 2020

1、简介
2、猜测人
3、已知与推断
4、再次猜测
5、贝叶斯定理
6、联系：误报
- 练习题
7、参考答案：误报
8、贝叶斯学习 1
- 习题 1/2
- 习题 2/2
9、贝叶斯学习 2
10、贝叶斯学习 3
11、朴素贝叶斯算法 1
- 练习题
12、朴素贝叶斯算法 2
13、项目：构建垃圾邮件分类器
简介
垃圾邮件是什么？
14、项目概述
15、构建垃圾邮件分类

1、简介

2、猜测人

3、已知与推断

4、再次猜测

5、贝叶斯定理

6、联系：误报

练习题

你认为生病的可能性是多少？

0%-20%
20%-40%
20%-60%
60%-80%
80%-100%

7、参考答案：误报

8、贝叶斯学习 1

习题 1/2

假设一封邮件是垃圾邮件，其中包含单词 ‘easy’ 的概率是多少？

习题 2/2

假设一封邮件是垃圾邮件，其中包含单词 ‘money’ 的概率是多少？

9、贝叶斯学习 2

10、贝叶斯学习 3

备注：视频1:49处右边概率从上到下依次应为 1/4，1/8，1/8，1/2。

11、朴素贝叶斯算法 1

练习题

Spam 和 ham 的正确概率是多少？换句话说，哪两个数字加起来是 1，并且与 1/12 和1/40 成比例？

11/12 和 1/12
12/52 和 40/52
1/12 和 1/40
10/13 和 3/13

下一项

12、朴素贝叶斯算法 2

13、项目：构建垃圾邮件分类器

简介

垃圾邮件检测是现今网络中最重要的机器学习应用案例领。几乎所有的大型邮箱服务提供商都内置了垃圾邮件检测系统，并自动将此类邮件归类为“垃圾邮件”。

在此项目中，我们将使用朴素贝叶斯算法来创建一个模型，并根据我们对模型展开的训练将数据集文本分类为是否为垃圾文本。你需要直观地了解哪些文本信息属于垃圾信息。

垃圾邮件是什么？

通常包含字眼“免费（’free’）”、“赢取（’win’）”、“获奖者（’winner’）”、“现金（’cash’）”、“奖品（’prize）”等，因为这些字眼专门用于吸引你的注意，诱惑你打开邮件。此外，垃圾邮件喜欢让所有单词都大写，并使用大量的感叹号。对收件人来说，通常很容易就判断出是否为垃圾邮件，我们的目标是训练模型来帮助我们识别垃圾邮件！

识别垃圾邮件是二元分类问题，因为邮件要么“是垃圾邮件（’Spam’）”，要么“不是垃圾邮件（’Not Spam’）”，不会再有第三种情况。此外，这是监督学习问题，因为我们知道要预测什么。我们将向模型提供带有标签的数据集，使其从中学习规律并作出未来预测。

14、项目概述

此项目分为以下步骤：

第 0 步: 朴素贝叶斯定理简介
第 1.1 步: 了解我们的数据集
第 1.2 步: 数据预处理
第 2.1 步: Bag of Words(BoW)
第 2.2 步: 从头实现 BoW
第 2.3 步: 在 scikit-learn 中实现 Bag of Words
第 3.1 步: 训练和测试数据集
第 3.2 步: 向我们的数据集中应用 Bag of Words 处理流程
第 4.1 步: 从头实现贝叶斯定理
第 4.2 步: 从头实现朴素贝叶斯定理
第 5 步: 使用 scikit-learn 实现朴素贝叶斯定理
第 6 步: 评估模型
第 7 步: 结论

你可以通过转到此链接跟着我们一起操作。

15、构建垃圾邮件分类

数据

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

ML (35)

ML (35)

hetaodie
Mobile development

简单，深入的研究移动客户端开发技术"