本文探讨了数据基础设施设计中常见的一个问题：数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录，导致模型性能受限。为解决这一问题，文章介绍了缓慢变化维度（SCD）技术，特别是Type II类型的应用。通过SCD，可以有效追踪维度表的历史变更，确保模型训练数据包含完整的时序信息，从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议，强调历史数据追踪对提升模型性能和业务洞察的重要性，并建议采用渐进式策略逐步引入SCD设计模式。

Deephub

624 8 8

Deephub

机器学习/深度学习算法 Python

机器学习特征筛选：向后淘汰法原理与Python实现

向后淘汰法（Backward Elimination）是机器学习中一种重要的特征选择技术，通过系统性地移除对模型贡献较小的特征，以提高模型性能和可解释性。该方法从完整特征集出发，逐步剔除不重要的特征，最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能，减少过拟合，降低计算复杂度。然而，该方法在高维特征空间中计算成本较高，且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。

Deephub

593 7 7

Deephub

10月前

机器学习/深度学习数据采集算法

量子机器学习入门：三种数据编码方法对比与应用

在量子机器学习中，数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法，分析其原理、实现及适用场景，帮助读者选择最适合的编码策略，提升量子模型性能。

Deephub

821 8 8

Deephub

机器学习/深度学习算法数据可视化

机器学习模型中特征贡献度分析：预测贡献与错误贡献

本文将探讨特征重要性与特征有效性之间的关系，并引入两个关键概念：预测贡献度和错误贡献度。

Deephub

1370 4 4

pai_rec_coder

存储分布式计算 API

基于PAI-FeatureStore的LLM embedding功能，结合通义千问大模型，可通过以下链路实现对物品标题、内容字段的离线和在线特征管理。

本文介绍了基于PAI-FeatureStore和通义千问大模型的LLM embedding功能，实现物品标题、内容字段的离线与在线特征管理。核心内容包括：1) 离线特征生产（MaxCompute批处理），通过API生成Embedding并存储；2) 在线特征同步，实时接入数据并更新Embedding至在线存储；3) Python SDK代码示例解析；4) 关键步骤说明，如客户端初始化、参数配置等；5) 最佳实践，涵盖性能优化、数据一致性及异常处理；6) 应用场景示例，如推荐系统和搜索排序。该方案支持端到端文本特征管理，满足多种语义理解需求。

pai_rec_coder

421 1 1

pai_rec_coder

存储机器学习/深度学习缓存

特征平台PAI-FeatureStore的功能列表

本内容介绍了阿里云PAI FeatureStore的功能与使用方法，涵盖离线和在线特征管理、实时特征视图、行为序列特征视图、FeatureStore SDK的多语言支持（如Go、Java、Python）、特征生产简化方案、FeatureDB存储特性（高性能、低成本、及时性）、训练样本导出以及自动化特征工程（如AutoFE）。同时提供了相关文档链接和技术细节，帮助用户高效构建和管理特征工程。适用于推荐系统、模型训练等场景。

pai_rec_coder

587 2 2

pai_rec_coder

存储分布式计算 MaxCompute

使用PAI-FeatureStore管理风控应用中的特征

PAI-FeatureStore 是阿里云提供的特征管理平台，适用于风控应用中的离线和实时特征管理。通过MaxCompute定义和设计特征表，利用PAI-FeatureStore SDK进行数据摄取与预处理，并通过定时任务批量计算离线特征，同步至在线存储系统如FeatureDB或Hologres。对于实时特征，借助Flink等流处理引擎即时分析并写入在线存储，确保特征时效性。模型推理方面，支持EasyRec Processor和PAI-EAS推理服务，实现高效且灵活的风险控制特征管理，促进系统迭代优化。

pai_rec_coder

518 6 6

pai_rec_coder

PAI-Rec推荐平台对于实时特征有三个层次

PAI-Rec推荐平台针对实时特征有三个处理层次：1) 离线模拟反推历史请求时刻的实时特征；2) FeatureStore记录增量更新的实时特征，模型特征导出样本准确性达99%；3) 通过callback回调接口记录请求时刻的特征。各层次确保了实时特征的准确性和时效性。

pai_rec_coder

811 0 0

BetterBench

机器学习/深度学习数据采集算法

【机器学习】K-Means聚类的执行过程？优缺点？有哪些改进的模型？

K-Means聚类的执行过程、优缺点，以及改进模型，包括K-Means++和ISODATA算法，旨在解决传统K-Means算法在确定初始K值、收敛到局部最优和对噪声敏感等问题上的局限性。

BetterBench

609 2 2

BetterBench

机器学习/深度学习

机器学习中label如何实现多标签编码？

介绍了在机器学习中处理多标签分类问题时的一种标签编码方法。

BetterBench

394 0 0

总结机器学习中7种离散特征编码方式优缺点

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景