0%


title:似然和极大似然估计

为了深入讨论似然的概念,需要先来了解概率, 概率和自然都是统计学中重要的概念, 它们之间有着紧密的联系。

概率是在特定环境下某件事情发生的可能性, 在结果没有产生之前, 我们可以根据环境中的参数, 对某件事情发生的概率进行预测, 例如对于抛硬币事件, 在抛硬币之前, 并不知道抛硬币的结果是哪一面朝上, 但我们可以根据硬币的性质进行推测, 如果抛掷的硬币是一枚均匀的硬币, 那么可以推断出, 任何一面朝上的可能性都是50%, 我们要注意这里的概率50%, 只有在抛硬币之前是有意义的, 因为抛完硬币后, 结果就确定了, 自然和概率刚好相反, 它是基于已经确定的结果来推测, 产生这个结果的可能环境, 或者说是推测环境中的某些参数, 依然使用抛硬币的例子, 假如随机抛出一枚硬币1万次, 结果8000次, 人像在上, 2000次, 数字在上, 那么可以判断出, 这枚硬币在构造时是有些特殊的, 我们基于炮制结果, 进一步推测该硬币的具体参数, 人像的概率是0.8, 数字的概率是0.2, 这个根据结果判断事情本身性质的过程, 就是自然, 因此总结来说, 自然和概率可以看作是问题的两个不同的方向, 概率是在已知模型参数的情况下预测结果, 而自然是在已知结果的情况下推断模型参数, 这c他表示环境中的参数, x表示事件发生的结果, 那么概率就可以表示为p x, c塔也就是在环境参数为theta的这个条件下, x发生的概率, 而自然为lc塔, x, 也就是在已知观察结果是x的情况下去推断c, 他这里需要注意的是, t是关于x的函数, l是关于theta的函数, 极大似然估计, maximum likelihood estimate也成为最大自然估计, 就是利用已知的样本标记结果反推最具可能, 或者是说最大概率, 导致这些样本结果出现的模型参数极大, 自然估计是一种已知观察数据, 来推断模型参数的过程, 例如根据事件x的观察结果, 推断c它是多少, 是结果x最有可能发生就是极大似然估计, 我们仍然使用抛硬币这个例子, 说它有theta的概率, 人像在上, 那么就有一减c塔的概率, 数字在上, c它是客观存在的, 但是我们最初并不知道theta具体是多少, 需要根据观测结果来进行判断, 为了获得theta, 需要进行多次抛硬币实验, 并记录抛出的结果序列, 假如在这个序列中有七次是人像, 三次是数字, 这样就得到了函数lc塔, 它等于theta的七次方乘一减theta的三次方, 函数l被称为theta的自然函数, 对于函数lc塔, 我们可以枚举c a的值, 画出函数l的图像, 例如当theta等于零时, 函数值是0=0.5时, 函数是1/1024等等, 这时候我们会发现函数在c塔等于0.7时, 取得最大值最大, 似然估计又是要求c塔等于多少时, 前面得到的十次观测最可能发生, 也就是七次人像朝上, 三次数字朝上, 这样的结果最可能发生, 这时我们会发现在函数取得最大值时, c它的取值为0.7, 在真实情况下, theta的值可能并不是0.7, 因为如果硬币是均值的, 那么c a应该是0.5, 但如果我们只从这次实验的结果来看, 在没有提供足够的证据证明硬币是均值的, 那么0.7就是该实验的最大似然估计取值, 另外如果希望获得更准确的参数, theta的值, 我们可以增加实验次数, 获得更多的实验结果, 并重新计算lc塔取得最大值时, c a的取值, 所以总结来说, 最大自然估计是一种参数的估计方法, 它的目标呢就是找到最可能产生观测数据结果, 的参数值, 在使用最大似然估计时, 需要构建一个自然函数l theta, 并找到使这个函数取得最大值时的参数值, 一般我们可以使用数学求导的方式, 计算导数为零时对应的参数取值, 或者使用梯度下降算法优化得到参数值, 需要说明的是, 最大似然估计的结果会受数据量的影响, 更多的数据通常可以得到更准确的估计, 在机器学习算法中, 比如逻辑回归模型, 会根据已有的数据x学习相应的参数分布, 也就是计算c他, 这其实就是最大自然估计的思想, 那么到这里自然和极大似然估计就讲完了, 感谢大家的观看, 我们下节课再会,