群组变量选择、组惩罚group lasso套索模型预测新生儿出生体重风险因素数据和交叉验证、可视化

简介: 用SPSS Modeler的Web复杂网络对所有腧穴进行关联规则分析4

本文介绍具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。这包括组选择方法,如组lasso套索、组MCP和组SCAD,以及双级选择方法,如组指数lasso、组MCP。还提供了进行交叉验证以及拟合后可视化、总结和预测的实用程序。

本文提供了一些数据集的例子;涉及识别与低出生体重有关的风险因素查看文末了解数据获取方式。结果是连续测量(bwt,以公斤为单位的出生体重),也可以是二分法(低),即新生儿出生体重低(低于2.5公斤)。

head(X)

原始设计矩阵由 8 个变量组成,此处已将其扩展为 16 个特征。例如,有多个种族指标函数(“其他”是参考组),并且已经使用多项式对比扩展了几个连续因素(例如年龄)(样条曲线会给出类似的结构)。因此,设计矩阵的列被 _分组_;这就是_组_的设计目的。分组信息编码如下:

group

在这里,组是作为一个因子给出的;唯一的整数代码(本质上是无标签的因子)和字符向量也是允许的(然而,字符向量确实有一些限制,因为组的顺序没有被指定)。要对这个数据拟合一个组套索lasso模型。

gLas(X, y,grup)

然后我们可以用以下方法绘制系数路径

plot

请注意,当一个组进入模型时(例如,绿色组),它的所有系数都变成非零;这就是组套索模型的情况。要想知道这些系数是什么,我们可以使用coef。

请注意,在λ=0.05时,医生的就诊次数不包括在模型中。

为了推断模型在各种 λ值下的预测准确性,进行交叉验证。

cv(X, y, grp)

可以通过coef以下方式获得与最小化交叉验证误差的 λ 值对应的系数 :

coef(cvfit)

预测值可以通过 获得 predict,它有许多选项:

predict # 对新观察结果的预测

predicttype="ngroups" # 非零组的数量

# 非零组的身份

nvars # 非零系数的数量

predict(fit # 非零系数的身份

原始拟合(对完整数据集)返回为fit; 其他几种惩罚是可用的,逻辑回归和 Cox 比例风险回归的方法也是如此。


相关文章
|
JSON API 数据格式
在钉钉开放平台中,创建或更新OA审批表单模板需要通过API接口进行操作
在钉钉开放平台中,创建或更新OA审批表单模板需要通过API接口进行操作【1月更文挑战第20天】【1月更文挑战第97篇】
496 1
|
安全 API 开发者
转账到支付宝账户接口:一次开发,提升打款效率
转账到支付宝账户接口:一次开发,提升打款效率
548 0
|
6月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
430 46
|
缓存 测试技术 API
API的封装步骤流程
API封装流程是一个系统化的过程,旨在将内部功能转化为可复用的接口供外部调用。流程包括明确需求、设计接口、选择技术和工具、编写代码、测试、文档编写及部署维护。具体步骤为确定业务功能、数据来源;设计URL、请求方式、参数及响应格式;选择开发语言、框架和数据库技术;实现数据连接、业务逻辑、错误处理;进行功能、性能测试;编写详细文档;部署并持续维护。通过这些步骤,确保API稳定可靠,提高性能。
|
11月前
|
存储 人工智能 Kubernetes
MiniMax云上AI数据湖最佳实践
本简介介绍MiniMax云上AI数据湖的最佳实践。MiniMax成立于2021年,专注于通用人工智能领域,提供ToB和C端产品。面对每日3万亿token、2000万张图片及7万小时语音数据的处理需求,MiniMax基于阿里云构建了稳定灵活的基础设施,采用多云策略实现全球化部署。通过引入Kubernetes、Ray等技术,优化了多模态数据处理效率,并利用对象存储与数据湖技术降低成本。此外,与阿里云合作开发边缘缓存方案,提升跨地域数据传输效率。主讲人:阿里云弹性计算技术专家高庆端。
442 10
|
11月前
|
自然语言处理 搜索推荐 数据挖掘
销售易、八百客、用友CRM:行业应用与选型建议
在数字化转型浪潮中,CRM系统成为企业提升销售效率、优化客户体验和增强竞争力的关键工具。本文深度剖析了销售易CRM、八百客CRM和用友CRM,从产品功能和优势特色两方面进行总结。销售易CRM适合大型企业和跨国公司,提供全面的客户管理、销售自动化、营销自动化等功能;八百客CRM以其易用性和移动办公特性,适合中小企业;用友CRM则以综合管理和定制化解决方案见长,适合需要一体化管理的中大型企业。企业应根据自身需求选择最适合的CRM系统,助力数字化转型。
|
缓存 Ubuntu 网络协议
ubuntu ifconfig命令找不到
通过上述指导,无论你是面临 `ifconfig`命令缺失的困惑,还是希望深入了解Ubuntu系统下的网络管理技巧,都能找到针对性的解决方案,进一步提升你的系统管理能力。
518 2
|
人工智能 算法
AI 写歌词,会让歌词创作变得更容易吗?
在科技迅猛发展的今天,AI已渗透至多个领域,包括歌词创作。《妙笔生词智能写歌词软件》通过强大算法与海量数据,为新手提供创作指导,快速生成多风格歌词片段,降低创作门槛,节省时间。尽管如此,优秀作品仍需创作者的情感与思考,AI辅助下的歌词创作正逐渐变得更为便捷。
|
机器学习/深度学习 自然语言处理 语音技术
注意力机制(Attention Mechanism)
注意力机制(Attention Mechanism)
554 0
|
消息中间件 大数据 Kafka
【建议收藏】技术人必看:如何选择适合你公司的消息队列工具
本文介绍了消息队列在系统架构中的三大作用:异步处理、削峰填谷和解耦,并通过实例详细阐述了每种作用的优势。文中推荐了三款消息队列工具:RabbitMQ适合中小型公司,因其开源和社区活跃;RocketMQ适合大型公司,因其强大的二次开发能力;而在大数据领域,Kafka是实时计算和日志采集的标准选择。作者小米鼓励读者根据自身需求选择合适的消息队列,并邀请大家探讨技术话题。
529 2