SparkMLib分类算法之朴素贝叶斯分类

2019-05-04 12:42 来源:未知

  ★No.2 唐老鸭

SparkMLib分类算法之朴素贝叶斯分类

  身价:291亿美元

    (一)朴素贝叶斯分类理解

  年龄:80岁

        朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子,如果一种水果具有红,圆,直径大概4英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(离散型变量是先验概率和类条件概率,连续型变量是变量的均值和方差)。

  婚姻状况:单身

 

  家乡:美国“鸭子堡”

图片 1

  教育情况:嘎嘎大学辍学生

图片 2

  排在第2的唐老鸭今年虽丧失了榜首的宝座,但靠着近来屡创新高的金价,使其身价升至291亿美元。

       实例讲解: 

  ★No.3 里奇

            图片 3  

  身价:123亿美元

                  

  年龄:10岁

  从该数据集计算得到的先验概率以及每个离散属性的类条件概率、连续属性的类条件概率分布的参数(样本均值和方差)如下:

  婚姻状况:单身

先验概率:P(Yes)=0.3;P(No)=0.7

  家乡:美国“富豪村”

P(有房=是|No) = 3/7

  发财秘笈:继承父母遗产

P(有房=否|No) = 4/7

  号称“世界上最富有小孩”的里奇是美国流行漫画《哈威》的主人公,出生在美国,是年仅10岁的超级阔少。

P(有房=是|Yes) = 0

P(有房=否|Yes) = 1

P(婚姻状况=单身|No) = 2/7

P(婚姻状况=离婚|No) = 1/7

P(婚姻状况=已婚|No) = 4/7

P(婚姻状况=单身|Yes) = 2/3

P(婚姻状况=离婚|Yes) = 1/3

P(婚姻状况=已婚|Yes) = 0

年收入:

如果类=No:样本均值=110; 样本方差=2975

如果类=Yes:样本均值=90; 样本方差=25

——》待预测记录:X={有房=否,婚姻状况=已婚,年收入=120K}

P(No)*P(有房=否|No)*P(婚姻状况=已婚|No)*P(年收入=120K|No)=0.7*4/7*4/7*0.0072=0.0024

TAG标签:
版权声明:本文由11664858.com发布于教育,转载请注明出处:SparkMLib分类算法之朴素贝叶斯分类