参数估计-1| 学习笔记

简介: 快速学习参数估计-1。

开发者学堂课程【机器学习算法 :参数估计-1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7221


参数估计-1

 

内容介绍

一、回顾:最大似然估计

二、最大似然估计法估计参数值

 

一、回顾:最大似然估计

在上一章介绍了如果因变量是二分类变量的话,怎样去把它转化一个可以使用线性回归去处理的模型,选用了一个 Logistic 函数也就是逻辑回归函数来作为预测的对象。它实际上就把一个分类变量的取值转化成一个连续变量的取值,就是0到1之间的概率取值。通过这个转换之后回归模型就可以用了。同时又面临一个非常重要的问题,就是关于回归模型中的参数如何进行一个估计。之前在介绍回归模型的时候也介绍过了估算参数的一个重要方法叫最大似然估计。

最大似然估计(Maximum Likelihood Estimation,MLE):利用总体的分布密度或概率分布的表达式及其样本所提供的信息求未知参数估计量的一种方法。

最大似然估计基本思路:已知样本符合某种分布,但分布的具体参数未知,通过实验,估算分布的参数。估算的思想为:已知某组参数能使当前样本出现的概率最大,就认为该参数为最终的估计值。

投掷一枚已知质地并不均匀硬币,正反面的结果符合二项式分布: P(X=k)=image.png其中 n 和 k 为与实验相关的常数,p 为出现正面的概率,也是待确定的参数。

将该硬币投掷i次,出现正面次数为j,在没有其他更多信息的情况下,则有理由相信image.png

最大似然估计解决的是“模型已定,参数未知”的问题。即用已知样本的结果,去反推既定模型中的参数最可能的取值。原则上就是去构造一个似然函数,其他函数怎样取值才能让似然函数最大,然后根据这一点去求相关的参数。就是现在看到的事情已经发生了,如何去调节相关的参数让这个事情发生的概率最大。这个时候就认为这个参数是最契合观察到现象的一种参数。

出现当前情形的概率为:f(image.png)=f(image.png)f(image.png)…f(image.png),θ未知

称其为似然函数L:L(θ/image.png)=f(image.png/θ)=f(image.png/θ)f(image.png/θ)…f(image.png/θ)=image.pngnf(image.png/θ)

为了方便计算,取对数:lnL(θ/image.png)=lnf(image.png/θ)+lnf(image.png/θ)+…+lnf(image.png)=image.pnglnf(image.png/θ)

将该硬币投掷10次,出现正面次数为3,有理由相信p=0.3

10投3正的概率:image.png

其似然函数为:image.png

 

二、最大似然估计法估计参数值

其实在做逻辑回归的时候也是需要使用最大似然估计法的。

最大似然估计既可用于线性模型,也可用于复杂的非线性模型估计,比如: Logistic 回归。

具体步骤:建立似然函数(Likelihood function),该函数将观察数据的概率表述为未知模型的参数。这个事件已经发生了,想办法去调整这个模型里面的参数,让当前观察到的事件发生的概率最大。这个时候通过这个方法计算出来的参数就是最有可能满足当前观察现象发生的一组参数。就是选择能够使该函数值达到最大的参数估计值。即这套参数能够通过模型以最大概率再现观测数据。

似然函数:假设总体为 N 条数据,实际上这个总体是不太可能会得到的。随机抽取 n个数据作为观察样本,设image.png它的意思就是给定了一个 image.png,这个时候得到image.png的条件概率就是 image.png。同样的道理image.png的概率就是image.png。这个时候就可以得到一个观察值的概率:image.png的时候它的概率是image.png,等于0的时候就是image.png,这与刚才的假设是一致的。其中 image.png或者image.png。因为各项观测是互相独立的,所以它们的联合分布可以表示为各边际分布的乘积:image.png  假设有两条记录,第一条观测到是1,那就把第一条出现的概率算出来,第二条出现的概率也算出来,这两条记录同时出现的概率就是把这两个概率乘起来。因为前提条件是各项观测互相独立,所以每条记录出现都有一个概率,那所有记录出现的概率就是每一条记录出现的概率乘起来,这是最基本的概率知识。这个时候只要去让  L(θ)  取得最大值,此时求得的 θ 的值就是参数值。比如要从所有记录中抽出5条记录来,其实有很多种抽法。当前已经观察到的这5条数据出现的概率最大的情况就是要求这个 L(θ)  最大,就是每一条记录出现的概率都可以表达为一个 θ 的函数,然后多条记录同时出现就是把概率乘起来,让整个多条记录同时出现的概率最大,取 L(θ) 的最大值,根据这个条件求出来的 θ 就是要估算的参数最有可能出现的值。

image.png

参数估计:求解使 L(θ) 最大的参数 θ,实际上此处的 θ 为未知参数 β=image.png

为了方便计算,可将对 L(θ) 两侧取对数,得到:

image.png

这个就是对数似然函数。

对上述对数似然函数image.png求解使其最大的总体参数β=image.png,即求极值。

分别对 β 求偏导,令其分别等于 0,求解。此处简化为:image.png

即有image.png

image.png

多个参数可以生成联立方程组,不太容易求解,通常使用迭代的方式进行求解,如牛顿法、梯度法。假设一个值带进去,看这个值和最终结果的偏离程度,直到通过迭代的方法得出一个值和最终的结果接近。

相关文章
|
XML 前端开发 JavaScript
css的作用
【4月更文挑战第22天】css的作用
215 7
|
16小时前
|
云安全 数据采集 人工智能
古茗联名引爆全网,阿里云三层防护助力对抗黑产
阿里云三层校验+风险识别,为古茗每一杯奶茶保驾护航!
古茗联名引爆全网,阿里云三层防护助力对抗黑产
|
4天前
|
Kubernetes 算法 Go
Kubeflow-Katib-架构学习指南
本指南带你深入 Kubeflow 核心组件 Katib,一个 Kubernetes 原生的自动化机器学习系统。从架构解析、代码结构到技能清单与学习路径,助你由浅入深掌握超参数调优与神经架构搜索,实现从使用到贡献的进阶之旅。
266 139
|
4天前
|
人工智能 中间件 API
AutoGen for .NET - 架构学习指南
《AutoGen for .NET 架构学习指南》系统解析微软多智能体框架,涵盖新旧双架构、核心设计、技术栈与实战路径,助你从入门到精通,构建分布式AI协同系统。
277 142
|
15天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
10天前
|
缓存 并行计算 PyTorch
144_推理时延优化:Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟,优化矩阵运算的独特瓶颈
在2025年的大模型时代,推理时延优化已经成为部署LLM服务的关键挑战之一。随着模型规模的不断扩大(从数亿参数到数千亿甚至万亿参数),即使在最先进的硬件上,推理延迟也常常成为用户体验和系统吞吐量的主要瓶颈。
354 147
|
4天前
|
人工智能 移动开发 自然语言处理
阿里云百炼产品月刊【2025年9月】
本月通义千问模型大升级,新增多模态、语音、视频生成等高性能模型,支持图文理解、端到端视频生成。官网改版上线全新体验中心,推出高代码应用与智能体多模态知识融合,RAG能力增强,助力企业高效部署AI应用。
262 1
|
10天前
|
机器学习/深度学习 存储 缓存
92_自我反思提示:输出迭代优化
在大型语言模型(LLM)应用日益普及的今天,如何持续提升模型输出质量成为了业界关注的核心问题。传统的提示工程方法往往依赖一次性输入输出,难以应对复杂任务中的多轮优化需求。2025年,自我反思提示技术(Self-Reflection Prompting)作为提示工程的前沿方向,正在改变我们与LLM交互的方式。这项技术通过模拟人类的自我反思认知过程,让模型能够对自身输出进行评估、反馈和优化,从而实现输出质量的持续提升。
410 136
|
14天前
|
存储 人工智能 搜索推荐
终身学习型智能体
当前人工智能前沿研究的一个重要方向:构建能够自主学习、调用工具、积累经验的小型智能体(Agent)。 我们可以称这种系统为“终身学习型智能体”或“自适应认知代理”。它的设计理念就是: 不靠庞大的内置知识取胜,而是依靠高效的推理能力 + 动态获取知识的能力 + 经验积累机制。
408 135