|
机器学习/深度学习
|

通过学习曲线识别过拟合和欠拟合

本文介绍了如何利用学习曲线识别机器学习模型中的过拟合和欠拟合问题。过拟合发生时,模型过于复杂,对训练数据过拟合,导致测试集表现不佳;欠拟合则是因为模型太简单,无法捕获数据模式,训练和测试集得分均低。学习曲线通过绘制训练和验证损失随训练样本增加的情况来辅助判断。对于过拟合,学习曲线显示训练损失低且随样本增加上升,验证损失降低但不趋近训练损失;欠拟合时,训练和验证损失都高,且两者随着样本增加缓慢改善。通过学习曲线,我们可以调整模型复杂度或采用正则化等方法优化模型泛化能力。

651 0
|
消息中间件 Docker 索引
|

【一文解读】阿里自研开源核心搜索引擎 Havenask简介及发展历史

本次分享内容为Havenask的简介及发展历史,由下面五个部分组成(Havenask整体介绍、名词解释、架构、代码结构、编译与部署),希望可以帮助大家更好了解和使用Havenask。

73128 0
来自: 智能搜索推荐  版块
|
存储 机器学习/深度学习 算法
|

如何准确的估计llm推理和微调的内存消耗

最近发布的三个大型语言模型——Command-R+ (104B参数), Mixtral-8x22b (141B参数的MoE模型), 和 Llama 3 70b (70.6B参数)——需要巨大的内存资源。推理时,Command-R+需193.72GB GPU RAM,Mixtral-8x22B需262.63GB,Llama 370b需131.5GB。激活的内存消耗根据序列长度、批大小等因素变化。文章详细介绍了计算这些模型内存需求的方法,并探讨了如何通过量化、优化器优化和梯度检查点减少内存使用,以适应微调和推理。

2255 0
|
SQL 分布式计算 大数据
|

Paimon 与 Spark 的集成(二):查询优化

通过一系列优化,我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%,已基本和 Parquet x Spark 持平,本文对其中的关键优化点进行了详细介绍。

119380 30
|
消息中间件 安全 Kafka
|

2024年了,如何更好的搭建Kafka集群?

我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。

3769 2
|
机器学习/深度学习 算法 计算机视觉
|

多目标跟踪 | 评测指标

多目标跟踪器的性能需要某些指标来进行度量,目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。

3015 2
|
传感器 算法 机器人
|

基于 IMU 的位姿解算

解算 IMU 采样数据的过程与惯导解算技术原理有关,而提高定位精度的方法主要依赖于IMU自身精度的提高和算法改进。

2115 0
|
传感器 机器学习/深度学习 Ubuntu
|

【论文解读】F-PointNet 使用RGB图像和Depth点云深度 数据的3D目标检测

​F-PointNet 提出了直接处理点云数据的方案,但这种方式面临着挑战,比如:如何有效地在三维空间中定位目标的可能位置,即如何产生 3D 候选框,假如全局搜索将会耗费大量算力与时间。 F-PointNet是在进行点云处理之前,先使用图像信息得到一些先验搜索范围,这样既能提高效率,又能增加准确率。 论文地址:Frustum PointNets for 3D Object Detection from RGB-D Data  开源代码:https://github.com/charlesq34/frustum-pointnets

1827 0
|
SQL 人工智能 分布式计算
|

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统

基于原始的阿里云计算平台产技文档,搭建一套基于大模型检索增强答疑机器人。本方案已在阿里云线上多个场景落地,将覆盖阿里云官方答疑群聊、研发答疑机器人、钉钉技术服务助手等。线上工单拦截率提升10+%,答疑采纳率70+%,显著提升答疑效率。

43934 60
来自: 人工智能平台PAI  版块
|
算法 Java Apache
|

运筹优化工具库介绍(二)

运筹优化工具库介绍

2197 0
|
算法 Java 决策智能
|

运筹优化工具库介绍(一)

运筹优化问题有时候极其复杂,我们可以使用运筹优化工具库帮助数学建模,解决复杂的最优化问题,本文介绍几个常见的运筹优化工具库。

2291 0
|
存储 数据安全/隐私保护 Windows
|

Win11 系统登录用户时无法登录

Win11系统,在未绑定和注册微软账号的情况下,使用邮箱注册绑定了微软账号,在win+L锁定屏幕后出现无法登录账号的情况,登录按钮只现实两个字,密码输入框不显示,点击登录后无反应或者加载几圈后回到登录原始页面。

1203 0
|
关系型数据库 PostgreSQL Docker
|

docker 容器部署postgresql数据持久化迁移

docker 容器部署postgresql数据持久化迁移

1419 0
|
消息中间件 Kafka Apache
|

Flink CDC+Kafka 加速业务实时化

阿里巴巴开发工程师,Apache Flink Committer 任庆盛,在 9 月 24 日 Apache Flink Meetup 的分享。

23538 1
来自: 实时计算 Flink  版块
|
SQL 存储 NoSQL
|

基于 Flink 构建大规模实时风控系统在阿里巴巴的落地

阿里云实时计算产品经理李佳林(风元)在 Flink 峰会的演讲。

4054 0
来自: 实时计算 Flink  版块
|
存储 达摩院 自然语言处理
|

【新功能】开放搜索多路召回技术解读

多路召回就是指采用不同的策略、特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略,本文将介绍开放搜索平台上的多路召回技术是如何深度提升搜索效果的~

5344 0
来自: 智能搜索推荐  版块
|
存储 SQL 调度
|

Flink 执行引擎:流批一体的融合之路

本文由 Apache Flink Committer 马国维分享,主要介绍 Flink 作为大数据计算引擎的流批一体融合之路。

9048 1
来自: 实时计算 Flink  版块
|
容器 流计算 资源调度
|

Apache Flink 进阶(四):Flink on Yarn/K8s 原理剖析及实践

本文主要介绍 Flink on Yarn/K8s 的原理及应用实践,文章将从 Flink 架构、Flink on Yarn 原理及实践、Flink on Kubernetes 原理剖析三部分内容进行分享并对 Flink on Yarn/Kubernetes 中存在的部分问题进行了解答。

5435 1
来自: 实时计算 Flink  版块
|
资源调度 调度 混合部署
|

阿里巴巴搜索混部解密

Hippo是搜索调度团队根据搜索、推荐、广告等业务特点从2013年开始打造并逐步完善的一套分布式调度系统,支持了集团内外多个事业部的搜索、推荐、广告等相关业务。2017双11期间,搜索在离线混部实现了全时段无干预无降级稳定运行,提供了搜索双11所有TF模型离线批次训练所需资源,并在2017/11/10晚上23点因为离线训练集群负载过高首次在混部上不间断运行了超过2万core的双11实时训练流程并一直在稳定运行。

7869 0
来自: 智能搜索推荐  版块
|
9天前
|
人工智能 运维 自然语言处理
|

朝阳永续基于阿里云 Milvus 构建金融智能投研产品“AI 小二”

朝阳永续通过采用阿里云向量检索服务 Milvus 版,构建了金融级智能投研引擎“AI 小二”,实现了对海量公告、研报和财报数据的高效语义检索。在智能问答、管理层表述分析等场景中,查询响应速度提升超 10 倍,系统稳定性显著增强,运维成本降低 80%,全面提升了投研效率与用户体验。

75 0
|
21天前
|
存储 SQL 缓存
|

Delta Join:为超大规模流处理实现计算与历史数据解耦

Delta Join(FLIP-486)是Flink流式Join的范式革新,通过将历史数据存储与计算解耦,实现按需查询外部存储(如Fluss、Paimon),避免状态无限增长。它解决了传统Join在高基数场景下的状态爆炸问题,显著降低资源消耗:状态减少50TB,成本降10倍,Checkpoint从小时级缩短至秒级,恢复速度提升87%。兼容标准SQL,自动优化转换,适用于海量数据实时关联场景,推动流处理迈向高效、稳定、可扩展的新阶段。

197 1
来自: 实时计算 Flink  版块
|
26天前
|
机器学习/深度学习 算法 数据可视化
|

Python | 贝叶斯搜索参数优化的XGBoost+SHAP可解释性分析回归预测及可视化算法

本教程将推出Python实现的XGBoost贝叶斯调参+SHAP可解释性分析与可视化,涵盖数据应用、算法原理及SHAP理论,助力SCI论文提升模型可解释性,附完整代码与环境配置指南。

231 7
|
1月前
|
人工智能 机器人 数据处理
|

ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍

Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。

458 6
来自: 人工智能平台PAI  版块
|
2月前
|
存储 数据库 索引
|

RAG检索质量差?这5种分块策略帮你解决70%的问题

RAG效果关键在于文档分块:固定、递归、语义、结构化与延迟分块各有优劣。合理选择能显著提升检索质量,减少幻觉,增强上下文理解,是构建高效RAG系统的核心环节。

367 4
|
4月前
|
安全 Java 数据库连接
|

2025 年最新 Java 学习路线图含实操指南助你高效入门 Java 编程掌握核心技能

2025年最新Java学习路线图,涵盖基础环境搭建、核心特性(如密封类、虚拟线程)、模块化开发、响应式编程、主流框架(Spring Boot 3、Spring Security 6)、数据库操作(JPA + Hibernate 6)及微服务实战,助你掌握企业级开发技能。

668 3
|
4月前
|
消息中间件 Java 数据库
|

Java 基于 DDD 分层架构实战从基础到精通最新实操全流程指南

本文详解基于Java的领域驱动设计(DDD)分层架构实战,结合Spring Boot 3.x、Spring Data JPA 3.x等最新技术栈,通过电商订单系统案例展示如何构建清晰、可维护的微服务架构。内容涵盖项目结构设计、各层实现细节及关键技术点,助力开发者掌握DDD在复杂业务系统中的应用。

817 0
|
6月前
|
机器学习/深度学习 存储 NoSQL
|

基于 Flink + Redis 的实时特征工程实战:电商场景动态分桶计数实现

本文介绍了基于 Flink 与 Redis 构建的电商场景下实时特征工程解决方案,重点实现动态分桶计数等复杂特征计算。通过流处理引擎 Flink 实时加工用户行为数据,结合 Redis 高性能存储,满足推荐系统毫秒级特征更新需求。技术架构涵盖状态管理、窗口计算、Redis 数据模型设计及特征服务集成,有效提升模型预测效果与系统吞吐能力。

658 2
|
6月前
|
人工智能 程序员 PHP
|

Cursor AI来袭!编程从此不再繁琐,一键生成代码,效率提升千倍

AI攻破最后防线!连架构设计都能自动生成,中级程序员集体破防

940 10
|
9月前
|
人工智能 监控 大数据
|

大数据未来五大趋势,这些变化你真的准备好了吗?

大数据未来五大趋势,这些变化你真的准备好了吗?

674 90
|
9月前
|
数据安全/隐私保护 UED iOS开发
|

Figma桌面客户端下载教程+协作设计入门,小白也能变大神

Figma 是全球领先的云端UI/UX设计工具,支持多人实时协作、矢量图形编辑与原型交互设计。其核心优势包括跨平台同步、团队协作(支持50+成员同时编辑)和丰富的资源生态(集成2000+免费插件)。Figma无需安装,通过浏览器访问官网即可使用。硬件要求最低为4GB内存和5Mbps宽带,推荐配置为8GB+内存和50Mbps+宽带。用户可通过创建团队空间邀请成员,支持邮箱邀请和链接分享。Figma还提供详细的官方学习资源,帮助用户掌握核心功能。

1334 2
|
10月前
|
自然语言处理 搜索推荐 小程序
|

微信公众号接口:解锁公众号开发的无限可能

微信公众号接口是微信官方提供的API,支持开发者通过编程与公众号交互,实现自动回复、消息管理、用户管理和数据分析等功能。本文深入探讨接口的定义、类型、优势及应用场景,如智能客服、内容分发、电商闭环等,并介绍开发流程和工具,帮助运营者提升用户体验和效率。未来,随着微信生态的发展,公众号接口将带来更多机遇,如小程序融合、AI应用等。

1343 1
|
10月前
|
数据采集 存储 数据挖掘
|

深入剖析 Python 爬虫:淘宝商品详情数据抓取

深入剖析 Python 爬虫:淘宝商品详情数据抓取

1312 3
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

告别熬夜写代码!VSCode+Cline扩展插件+DeepSeek-V3大模型,让你的编程水平瞬间超越99.9%的人!

逆天改变!VSCode+Cline+DeepSeek-V3,编程界的新王者就是你!

2500 35
|
Ubuntu Linux Shell
|

/etc/rc.d/rc.local 的作用

/etc/rc.d/rc.local是Linux系统中的一个重要配置文件,其主要作用是在系统启动时执行特定的命令或脚本。以下是关于/etc/rc.d/rc.local的详细解释: ### 作用 * **系统启动任务配置**:该文件允许系统管理员或用户配置在系统启动时需要自动运行的任务。这些任务可以是启动服务、运行特定程序或执行脚本等。 * **开机自启动程序**:通过编辑/etc/rc.d/rc.local文件,用户可以自定义开机启动程序。只需将需要开机启动的程序命令或脚本路径添加到该文件中,并在系统启动时该文件将被自动执行。 ### 文件内容 * 通常包含一个shell脚本,该脚本在

919 12
|
SQL 人工智能 DataWorks
|

DataWorks:新一代 Data+AI 数据开发与数据治理平台演进

本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。

2830 7
|
机器学习/深度学习 数据可视化 自动驾驶
|

YOLO11-seg分割:具有切片操作的SimAM注意力,魔改SimAM助力分割

本文创新地对SimAM注意力机制进行魔改,引入切片操作,显著提升了小目标特征提取能力。针对SimAM在计算整张特征图的像素差平均值时可能忽略小目标重要性的问题,通过切片操作增强了小目标的加权效果。实验结果显示,魔改后的SimAM在YOLO11-seg上的Mask mAP50从0.673提升至0.681,有效改善了小目标检测性能。

1302 2
|
机器学习/深度学习 自然语言处理 PyTorch
|

PyTorch 中的动态图与静态图:理解它们的区别及其应用场景

【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。

3408 0
|
分布式计算 DataWorks Java
|

DataWorks产品使用合集之怎么选择Doris或StarRocks作为DataWorks的OLAP解决方案

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

865 0
|
数据采集 监控 大数据
|

大数据时代的数据质量与数据治理策略

在大数据时代,高质量数据对驱动企业决策和创新至关重要。然而,数据量的爆炸式增长带来了数据质量挑战,如准确性、完整性和时效性问题。本文探讨了数据质量的定义、重要性及评估方法,并提出数据治理策略,包括建立治理体系、数据质量管理流程和生命周期管理。通过使用Apache Nifi等工具进行数据质量监控和问题修复,结合元数据管理和数据集成工具,企业可以提升数据质量,释放数据价值。数据治理需要全员参与和持续优化,以应对数据质量挑战并推动企业发展。

3187 3
|
存储 SQL 搜索推荐
|

一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01

一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01

130655 19
来自: 实时数仓 Hologres  版块
|
存储 SQL 数据可视化
|

阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式

EMR StarRocks 线上公开课第1期 ,直播主题:EMR Serverless StarRocks3.x,极速统一的湖仓新范式。

1386 1
|
人工智能 自然语言处理 搜索推荐
|

文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首

在人工智能的浪潮中,大型语言模型(LLM)无疑是最引人注目的潮头。在支撑这些大型语言模型应用落地方面,文本向量化模型(Embedding Model)的重要性也不言而喻。 近期,我在浏览huggingface发现,国产自研文本向量化模型acge_text_embedding(以下简称“acge模型”)已经在业界权威的中文语义向量评测基准C-MTEB(Chinese Massive Text Embedding Benchmark)中获得了第一名。

4165 1
|
存储 分布式计算 Hadoop
|

ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

ClickHouse是一款高性能的列式存储OLAP数据库,由俄罗斯的Yandex公司开发,用于在线分析处理(OLAP)。它提供秒级大数据查询,适用于商业智能、广告流量等领域。ClickHouse速度快的原因包括列式存储、数据压缩、向量化执行和多线程分布式处理。然而,它不支持事务,不适合OLTP操作。相比Hadoop生态中的查询引擎,ClickHouse在大量数据查询上表现出色。一系列的文章详细介绍了ClickHouse的各个方面,包括安装、表引擎和使用场景。

2424 2
|
前端开发 Java API
|

淘系接口推荐:淘宝图片搜索商品数据接口,轻松获取相似商品

淘系接口推荐:淘宝图片搜索商品数据接口,轻松获取相似商品

1288 6
|
数据采集 SQL 自然语言处理
|

阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一

阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。

2490 4
来自: 智能搜索推荐  版块
|
人工智能 自然语言处理 大数据
|

大模型+知识图谱双驱架构:新一代《知识语义框架SPG》白皮书

白皮书展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。

3247 2
|
机器学习/深度学习 人工智能 自然语言处理
|

蚂蚁集团持续探索生成式AI,20篇论文入选AI顶会NeurlPS

NeurlPS官方数据显示,本届会议共有12343篇有效论文投稿,接收率为26.1%。蚂蚁集团20篇论文被收录。 据了解,蚂蚁此次入选的论文,覆盖计算机视觉、自然语言处理、图神经网络、图像处理等多个人工智能和机器学习领域的前沿主题。其中七成以上论文聚焦生成式AI在高速发展中遇到的一些挑战和难题。

1269 0
|
存储 Java Maven
|

IDEA常用插件之类Jar包搜索Maven Search

IDEA常用插件之类Jar包搜索Maven Search

1239 0
|
机器学习/深度学习 JSON 自然语言处理
|

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源!

随着深度学习大语言模型的不断发展,其模型结构和量级在快速演化,依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗的算力发挥出来,还要应对大模型的持续迭代。开发简单易用的大模型训练工具就成了应对以上问题广受关注的技术方向,让开发者专注于大模型解决方案的开发,降低大模型训练加速性能优化和训练/推理全流程搭建的人力开发成本。阿里云机器学习平台PAI开源了业内较早投入业务应用的大模型训练工具Pai-Megatron-Patch,本文将详解Pai-Megatron-Patch的设计原理和应用。

3118 86
来自: 人工智能平台PAI  版块
|
机器学习/深度学习
|

马修斯相关系数MCC简介

在评估机器学习模型的性能时,F1score都被首选指标。在本文中,我们将介绍一个值得更多关注和认可的替代度量:马修斯相关系数(MCC)。

1312 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67713
内容
128
活动
439500
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务