朴素贝叶斯（Naive Bayes）

发表于2022-03-10|更新于2022-03-11|机器学习模型

|浏览量:

典型的生成学习方法，基本假设是条件独立性

模型算法

朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)，具体方法是通过参数估计的方法学习类标签的先验概率和对应的条件概率分布，然后利用贝叶斯公式对后验概率进行计算，将后验概率最大的类进行输出。

在实际计算的过程中，由于条件概率分布的参数过多，在数据量不是特别大的时候难以求得联合概率分布，于是作了条件独立性的假设（Conditionally Independent）（名字的来源，高效易实现，但分类的性能不一定高），得到最终的朴素贝叶斯分类器：

分母完全相同，上式演变为：

参数估计

极大似然估计

参数估计一般采用极大似然估计：

朴素贝叶斯估计

实际运用过程中为了避免估计的概率值为零的情况（放大了单一特征对评估结果的影响，比如一个长头发的男人会被判为出现概率为0，会影响后验概率的计算结果），一般采用贝叶斯估计：

后验概率最大化=期望风险最小化（0-1损失函数）

可以通过证明发现，后验概率最大意味着期望风险值是最小化的。同样的输入数据，当后验概率最大时，分错的期望风险也是最小的。

当变量是连续变量时，计算概率则需要其他的方法（高斯）

延伸

文章作者: 爱编程的小明

文章链接: https://kebuaaa.github.io/%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%EF%BC%88Naive%20Bayes%EF%BC%89/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源小明的博客！

机器学习 Bayesian-Statistics

相关推荐

EM算法及其推广

EM算法对于一般概率模型的学习策略，我们往往会采取极大似然估计或者贝叶斯估计的方法对模型的参数进行估计，但是需要注意的是这种估计方法都是建立在待估参数全部为已经知道结果的参数的基础之上的(complete-data problem)。当模型中有隐变量/潜在变量（数据不可观测的变量）时，似然函数的最大化变得困难。这是就可以使用EM算法,EM算法是在不完全数据下求解MLE估计结果的一种近似求解方法，用迭代去逼近原来不完整数据问题的结果。EM算法主要分为两步： E:求期望(expectation) M:求极大(maximization) EM算法的核心思想是在既定样本数据下在因变量最有可能的分布状态下利用极大似然估计模型的参数。算法导出针对一个含有隐变量的概率模型，这里假设隐变量为Z，观测数据Y关于参数θ\thetaθ的对数似然函数为L(θ)L(\theta)L(θ): \begin{equation} \begin{aligned} L(\theta) & = \log...

点击查看【bilibili】 1 章绪论.pdf 2 章离散信源及其信息测度.pdf intro 熵可以从随机变量状态需要的平均信息量角度理解, 也可以从描述统计力学中无序程度的度量角度理解。从平均信息量的角度来看，对于不确定性事件，可以用消除其不确定性需要的信息量(bit 数)来表示，这里表示成−log⁡pi-\log p_i−logpi,而考虑到随机事件的不确定性，可以通过对信息量求期望得到某随机事件（随机变量）的信息熵，信息熵越大，则说明（消除随机性）需要的信息量越大，即不确定性越大。一般来说，对于随机变量XXX，其信息熵定义如下: H(X)=−∑i=1np(xi)log⁡2p(xi)H(X)=-\sum\limits_{i=1}^{n}p(x_i)\log_2{p(x_i)} H(X)=−i=1∑np(xi)log2p(xi) if p=0p=0p=0，then...

Logistic Regression

当因变量的类型属于二元（1 / 0，真/假，是/否）变量时，应该使用逻辑回归。这里，Y的值为0或1，它可以用以下方程表示： \begin{equation*} \begin{aligned} odds &= \frac{p}{1-p}\\ &=\frac{probability\hspace{5pt} of\hspace{5pt} event\hspace{5pt} occurrence}{probability\hspace{5pt} of\hspace{5pt} not\hspace{5pt} event...

对偶问题（SVM）

Duality (optimization) In mathematical optimization theory, duality or the duality principle is the principle that optimization problems may be viewed from either of two perspectives, the primal problem or the dual problem. The solution to the dual problem provides a lower bound to the solution of the primal (minimization) problem.However in general the optimal values of the primal and dual problems need not be equal. Their difference is called the duality gap. For convex optimization...

决策树模型

人们的决策过程是一个类似“观察因素A的情况，再根据A的情况观察因素B的情况”的形式，从而形成一种树状结构。决策树学习是模仿人类这一结构化决策过程而发展起来的一种有监督机器学习方法。它可以被认为是if-then规则的集合，也可以被认为是定义在特征空间和类空间上的条件概率分布。模型具有可读性分类速度快决策树的思想主要来源于Quinlan在1986年提出的ID3和1993提出的C4.5算法，以及由Breiman等人1984年提出的CART算法。模型决策树学习本质上是从训练数据集中归纳出一组分类规则或者条件概率模型（在节点处取条件概率最大的进行分类）。决策树问题一般可以分成特征选择、决策树生成、剪枝三部分。特征选择：通过建立一个函数来衡量特征划分的效果生成：递归构造决策树的过程剪枝：递归产生的决策树往往会递归到不能分类为止，这会导致出现过拟合现象，因此需要已经生成的决策树进行剪枝(pruning)，一般是通过极小化决策树整体的损失函数(loss function)或者代价函数(cost...

线性分类方法感知机和线性判别分析/Fisher分析是非常经典的硬分类线性模型，模型提出都比较早。感知机感知机是二类分类的线性分类模型。感知机只在求出线性可分的分类超平面，通过梯度下降法对损失函数极小化建立感知机模型。感知机1957年由Rosenblatt提出，是神经网络和支持向量机的基础模型输入空间是实例向量组成的空间，输出空间是-1和+1（正负两类）。建立如下函数： \begin{align*} f(x)&=sign(\omega \cdot x+b)\\ \omega&:weight\quad or\quad weight\quad...