|
3月前
|
SQL 分布式计算 编译器
|

流批一体向量化引擎Flex

本文整理自蚂蚁集团技术专家刘勇在Flink Forward Asia 2024上的分享,聚焦流批一体向量化引擎的背景、架构及未来规划。内容涵盖向量化计算的基础原理(如SIMD指令)、现有技术现状,以及蚂蚁在Flink 1.18中引入的C++开发向量化计算实践。通过Flex引擎(基于Velox构建),实现比原生执行引擎更高的吞吐量和更低的成本。文章还详细介绍了功能性优化、正确性验证、易用性和稳定性建设,并展示了线上作业性能提升的具体数据(平均提升75%,最佳达14倍)。最后展望了未来规划,包括全新数据转换层、与Paimon结合及支持更多算子和SIMD函数。

225 9
来自: 实时计算 Flink  版块
|
3月前
|
数据采集 算法 数据可视化
|

DROPP算法详解:专为时间序列和空间数据优化的PCA降维方案

DROPP(Dimensionality Reduction for Ordered Points via PCA)是一种专为有序数据设计的降维方法,通过结合协方差分析与高斯核函数调整,有效融入数据顺序特性。本文详细解析了DROPP的理论基础、实现步骤及其应用。算法核心在于利用相邻元素间的相似性特征,关注局部邻域信息以降低噪声影响,适用于时间序列或空间序列数据。文中通过模拟数据示例展示了算法的具体实现过程,并总结了其在气候研究和分子动力学等领域的广泛应用潜力。

118 0
|
4月前
|
人工智能 自然语言处理 算法
|

DistilQwen-ThoughtX:变长思维链推理模型,能力超越DeepSeek蒸馏模型

阿里云PAI团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集,我们还推出了 DistilQwen-ThoughtX 系列模型,可以通过RV和CD分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。

460 9
来自: 人工智能平台PAI  版块
|
4月前
|
机器学习/深度学习 人工智能 监控
|

业余AI与专业AI的区别,就在这些评估指标上

如何知道你训练的AI模型是天才还是学渣?本文用轻松幽默的方式带你了解机器学习的各类评估指标,让你不仅能说出模型的好坏,还能找到改进的方向,避免在实际应用中翻车。

185 8
|
4月前
|
数据采集 机器学习/深度学习 自然语言处理
|

NLP助力非结构化文本抽取:实体关系提取实战

本文介绍了一套基于微博热帖的中文非结构化文本分析系统,通过爬虫代理采集数据,结合NLP技术实现实体识别、关系抽取及情感分析。核心技术包括爬虫模块、请求配置、页面采集和中文NLP处理,最终将数据结构化并保存为CSV文件或生成图谱。代码示例从基础正则规则到高级深度学习模型(如BERT-BiLSTM-CRF)逐步演进,适合初学者与进阶用户调试与扩展,展现了中文NLP在实际场景中的应用价值。

237 3
|
4月前
|
自动驾驶 5G 网络性能优化
|

5G标准化背后的江湖:技术规范如何塑造未来通信

5G标准化背后的江湖:技术规范如何塑造未来通信

168 19
|
4月前
|
JSON 数据挖掘 API
|

抖音电商新篇章:douyin.item_video API接口的介绍

抖音视频列表API接口简介:随着短视频发展,抖音成为全球重要平台,其视频数据对开发者、创作者和分析师意义重大。该API支持按关键词、分类等方式获取视频列表,通过HTTP请求(如GET)返回JSON格式数据,包含视频ID、播放量、作者信息等,助力构建推荐系统、分析趋势及挖掘用户行为,实现高效合法的数据利用。

477 1
|
4月前
|
消息中间件 监控 5G
|

5G+智能家居:让生活更智慧、更畅快

5G+智能家居:让生活更智慧、更畅快

160 7
|
4月前
|
传感器 人工智能 边缘计算
|

“种田也能上5G?”——带你看懂5G+智慧农业的真相与技术细节

“种田也能上5G?”——带你看懂5G+智慧农业的真相与技术细节

177 19
|
5月前
|
XML JSON API
|

手把手教你调用京东商品详情 API:从申请到数据抓取全流程

京东商品详情API为电商从业者、分析师及开发者提供高效数据支持,助力优化业务与研究。该接口具备丰富数据(商品属性、价格、描述、图片、评价等)与灵活请求方式(GET/POST),满足多样化需求,是数字化时代电商应用开发与分析的有力工具。

365 13
|
5月前
|
存储 人工智能 监控
|

通过阿里云Milvus与通义千问VL大模型,快速实现多模态搜索

阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。

405 2
|
5月前
|
机器学习/深度学习 运维 算法
|

从算法菜鸟到挖掘达人:数据挖掘的算法大冒险

从算法菜鸟到挖掘达人:数据挖掘的算法大冒险

150 18
|
5月前
|
机器学习/深度学习 算法 PyTorch
|

10招立竿见影的PyTorch性能优化技巧,让模型训练速度翻倍

本文系统总结了PyTorch性能调优的关键技术,涵盖混合精度训练、PyTorch 2.0编译功能、推理模式优化、Channels-Last内存格式、图优化与变换、cuDNN基准测试、内存使用优化等多个方面。通过实证测试,文章详细分析了各技术的实现细节、优势及适用场景,如混合精度训练可显著提升计算效率和内存利用率,torch.compile()能自动优化代码生成以加速模型运行。此外,还探讨了推理模式的选择、卷积操作优化及模型构建的最佳实践。这些方法结合良好的编码习惯,有助于开发者构建高效、可扩展的深度学习应用。

314 3
|
5月前
|
数据采集 测试技术 C++
|

无headers爬虫 vs 带headers爬虫:Python性能对比

无headers爬虫 vs 带headers爬虫:Python性能对比

168 5
|
5月前
|
人工智能 算法 数据管理
|

制作像素风《饥荒》类游戏的整体蓝图和流程

制作一个像素风《饥荒》类游戏的整体蓝图和流程

237 9
|
5月前
|
数据采集 存储 NoSQL
|

如何避免Python爬虫重复抓取相同页面?

如何避免Python爬虫重复抓取相同页面?

166 1
|
5月前
|
机器学习/深度学习 人工智能 算法
|

AI鱼类识别技术原理及示例代码

本文详细解析了AI鱼类识别的代码示例,涵盖深度学习框架选择、数据集处理、模型构建与训练优化全流程。内容包括技术选型对比(如TensorFlow、PyTorch、YOLO系列)、数据准备流程(开源数据集与标注规范)、完整代码示例(以PyTorch版ResNet50改进模型为例)以及模型优化策略(如量化压缩、知识蒸馏)。此外,还提供了典型应用场景(如渔业资源监测系统)、模型评估指标及开源项目推荐,并针对常见问题(小样本、水下模糊、类别不平衡等)提出解决方案。

357 5
|
6月前
|
数据采集 文字识别 API
|

Python爬虫模拟登录并跳过二次验证

Python爬虫模拟登录并跳过二次验证

183 0
|
6月前
|
人工智能 搜索推荐 算法
|

谁是AI搜索先锋? Elastic先锋者招募令正式启动!

阿里云 x Elastic 携手推出“Elastic Pioneer”先锋者计划,开发者们可以通过贡献内容获取积分,赢取月度和年度奖励,包括 ElasticON 新加坡站门票及与技术大咖交流机会。

322 2
|
6月前
|
数据采集 机器学习/深度学习 存储
|

可穿戴设备如何重塑医疗健康:技术解析与应用实战

可穿戴设备如何重塑医疗健康:技术解析与应用实战

206 4
|
6月前
|
人工智能 数据可视化 数据挖掘
|

《智能商业分析 Quick BI》初体验

Quick BI 是一款全场景数据消费式的BI平台,用户可制作仪表板、电子表格、大屏及数据门户,并将报表集成到业务流程中分享给同事或合作伙伴,展现了强大的数据展示能力。

120 4
|
6月前
|
机器学习/深度学习 运维 数据挖掘
|

时间序列特征提取:18 种高效工具库及其应用分析

时间序列特征提取是数据科学的重要环节,可将原始数据转化为分析价值高的特征表示。本文介绍18个Python库,涵盖通用与专业领域(如医疗、金融)的特征提取工具。这些库包括tsfeatures、tsfresh、librosa等,各自针对特定任务(如预测、分类、异常检测)提供独特功能。通过结合不同库的特点,数据科学家能更高效地进行特征工程,提升模型性能与分析深度。文章总结了各库的优势及适用场景,为实际应用提供了全面指导。

276 0
|
7月前
|
人工智能 自然语言处理 搜索推荐
|

阿里云 AI 搜索开放平台集成 DeepSeek 模型

阿里云 AI 搜索开放平台最新上线 DeepSeek -R1系列模型。

786 2
来自: 智能搜索推荐  版块
|
7月前
|
人工智能 DataWorks 大数据
|

大数据AI一体化开发再加速:DataWorks 支持GPU类型资源

大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。

506 24
|
7月前
|
小程序 测试技术 数据安全/隐私保护
|

微信公众号接口测试实战指南

微信公众号接口测试是确保系统稳定性和功能完整性的重要环节。本文详细介绍了测试全流程,包括准备、工具选择(如Postman、JMeter)、用例设计与执行,以及常见问题的解决方法。通过全面测试,可以提前发现潜在问题,优化用户体验,确保公众号上线后稳定运行。内容涵盖基础接口、高级接口、微信支付和数据统计接口的测试,强调了功能验证、性能优化、安全保护及用户体验的重要性。未来,随着微信生态的发展,接口测试将面临更多挑战和机遇,如小程序融合、AI应用和国际化拓展。

573 0
|
7月前
|
机器学习/深度学习 存储 数据可视化
|

Vision Transformer中的图像块嵌入详解:线性投影和二维卷积的数学原理与代码实现

本文详细介绍了 Vision Transformer 中图像块嵌入的实现过程,结合理论与代码示例,帮助读者深入理解这一关键机制。

172 8
|
7月前
|
人工智能 运维 自然语言处理
|

Elasticsearch AI Assistant 集成 DeepSeek,1分钟搭建智能运维助手

Elasticsearch 新支持 DeepSeek 系列模型,使用 AI 助手,通过自然语言交互,为可观测性分析、安全运维管理及数据智能处理提供一站式解决方案。

875 3
|
7月前
|
安全 搜索推荐 数据安全/隐私保护
|

产品经理-需求层次理论 - AxureMost

需求层次理论由马斯洛提出,将人类需求分为五个层次:生理、安全、社交、尊重和自我实现。该理论在产品设计中广泛应用,指导设计师创造满足用户深层次需求的产品。通过确保基本功能、强化安全、促进社交、提供个性化选项及支持自我实现,产品不仅能提升功能性,还能增强用户的心理满足感和忠诚度。

418 18
|
7月前
|
人工智能 自然语言处理 监控
|

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(LLMs)中的解码策略技术原理及其应用。通过深入分析贪婪解码、束搜索、采样技术等核心方法,以及温度参数、惩罚机制等优化手段,为研究者和工程师提供了全面的技术参考。文章详细探讨了不同解码算法的工作机制、性能特征和优化方法,强调了解码策略在生成高质量、连贯且多样化文本中的关键作用。实例展示了各类解码策略的应用效果,帮助读者理解其优缺点及适用场景。

723 20
|
7月前
|
监控 供应链 搜索推荐
|

亚马逊商品详情接口(亚马逊 API 系列)

亚马逊作为全球最大的电商平台之一,提供了丰富的商品资源。开发者和电商从业者可通过亚马逊商品详情接口获取商品的描述、价格、评论、排名等数据,对市场分析、竞品研究、价格监控及业务优化具有重要价值。接口基于MWS服务,支持HTTP/HTTPS协议,需注册并获得API权限。Python示例展示了如何使用mws库调用接口获取商品详情。应用场景包括价格监控、市场调研、智能选品、用户推荐和库存管理等,助力电商运营和决策。

475 23
|
7月前
|
人工智能 运维 Serverless
|

DeepSeek 模型云上部署评测:零门槛实现智能升级

DeepSeek 模型云上部署评测:零门槛实现智能升级

528 2
|
7月前
|
人工智能 自然语言处理 算法
|

DeepSeek模型的突破:性能超越R1满血版的关键技术解析

上海AI实验室周伯文团队的最新研究显示,7B版本的DeepSeek模型在性能上超越了R1满血版。该成果强调了计算最优Test-Time Scaling的重要性,并提出了一种创新的“弱到强”优化监督机制的研究思路,区别于传统的“从强到弱”策略。这一方法不仅提升了模型性能,还为未来AI研究提供了新方向。

1072 9
来自: 人工智能平台PAI  版块
|
7月前
|
人工智能 自然语言处理 搜索推荐
|

高性价比| OpenSearch 智能问答版开箱即用 DeepSeek-R1

OpenSearch LLM智能问答版基于DeepSeek-R1一分钟搭建RAG系统。

1383 11
来自: 智能搜索推荐  版块
|
7月前
|
数据可视化 算法 数据挖掘
|

用傅里叶变换解码时间序列:从频域视角解析季节性模式

本文介绍了如何使用傅里叶变换和周期图分析来识别时间序列中的季节性模式,特别是在能源消耗数据中。通过Python实现傅里叶变换和周期图,可以有效提取并量化时间序列中的主要和次要频率成分,克服传统可视化分析的局限性。这对于准确捕捉时间序列中的季节性变化具有重要意义。文章以AEP能源消耗数据为例,展示了如何应用这些方法识别日、周、半年等周期模式。

299 3
|
7月前
|
机器学习/深度学习 人工智能 算法
|

DeepSeek技术报告解析:为什么DeepSeek-R1 可以用低成本训练出高效的模型

DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。

1014 11
|
8月前
|
存储 人工智能 安全
|

基于区块链的数字身份认证:重塑身份安全的新范式

基于区块链的数字身份认证:重塑身份安全的新范式

922 16
|
8月前
|
消息中间件 关系型数据库 MySQL
|

Flink CDC 在阿里云实时计算Flink版的云上实践

本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。

522 0
来自: 实时计算 Flink  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践

本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。

4997 32
来自: 人工智能平台PAI  版块
|
8月前
|
人工智能 搜索推荐 算法
|

解决方案评测|主动式智能导购AI助手构建

阿里云的主动式智能导购AI助手是电商商家提升用户体验和销量的利器。它能实时分析用户行为,提供个性化推荐,支持多渠道无缝对接,并具备语音和文本交互功能。通过注册阿里云账号、开通服务、配置项目、设置推荐策略、集成到平台并测试优化,商家可以轻松部署这一工具。关键代码示例帮助理解API对接和数据处理。建议增强个性化推荐算法、优化交互体验并增加自定义选项,以进一步提升效果。

546 11
|
9月前
|
自然语言处理 Kubernetes 异构计算
|

推理降本与提升资源效率的实践

本课程从业务角度探讨大模型推理部署及资源利用率提升。首先分析大模型与GPU发展趋势,包括模型开源、规模增长及多模态能力增强;其次介绍高效部署大模型推理业务的步骤,涵盖业务场景选择、架构优化及显存规划;接着讲解如何通过DeepCPU-LLM框架和DeepNCCL通讯库优化推理效率;最后探讨通过KuberGPU实现细粒度GPU资源管理,提升整体资源利用率,降低推理成本。

395 11
|
9月前
|
运维 监控 DataWorks
|

DataWorks 稳定性保障全解析:深入监控与资源调配

DataWorks 的稳定性保障体系涵盖精细监控与资源调配,确保企业数据业务高效、稳定运行。监控模块包括资源、任务和质量监控,及时预警并处理异常;资源调配策略则针对集成、调度、数据服务及计算资源进行科学配置,保障数据同步、任务优先级和高并发需求。通过全方位的监控和合理的资源配置,DataWorks 为企业筑牢数据根基,助力数字化转型。

313 10
|
9月前
|
存储 缓存 自然语言处理
|

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

KV缓存是大语言模型(LLM)处理长文本的关键性能瓶颈,现有研究多聚焦于预填充阶段优化,忽视了解码阶段的重要性。本文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存策略,实现高效管理。SCOPE保留预填充阶段的关键信息,并在解码阶段引入滑动窗口等策略,确保重要特征的有效选取。实验表明,SCOPE仅用35%原始内存即可达到接近完整缓存的性能水平,显著提升了长文本生成任务的效率和准确性。

464 3
|
9月前
|
机器学习/深度学习 算法 数据可视化
|

无监督学习与数据聚类:从理论到实践

无监督学习与数据聚类:从理论到实践

304 12
|
9月前
|
机器学习/深度学习 人工智能 数据处理
|

[python 技巧] 快速掌握Streamlit: python快速原型开发工具

本文旨在快速上手python的streamlit库,包括安装,输入数据,绘制图表,基础控件,进度条,免费部署。

955 64
来自: 人工智能平台PAI  版块
|
9月前
|
机器学习/深度学习 JSON API
|

淘宝图片搜索接口(Taobao.item_search_img)

淘宝图片搜索接口(Taobao.item_search_img)允许开发者通过上传商品图片或提供图片地址,获取相似的淘宝商品列表。该接口基于深度学习和计算机视觉技术,支持注册账号、申请权限、构造请求参数、调用接口、解析响应数据等步骤。适用于电商平台购物体验提升、商家商品优化与推广、商品推荐系统和图片版权保护等场景。

1046 4
|
9月前
|
人工智能 搜索推荐 安全
|

智能家居:AI如何让我们的生活更便捷

智能家居:AI如何让我们的生活更便捷

469 7
|
9月前
|
数据可视化 算法 数据挖掘
|

Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析

蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。

466 15
9月前
|

基于阿里云Elasticsearch Enterprise构建AI搜索与可观测Chatbot

本次公开课我们将深入探讨如何构建高效的AI技术解决方案,Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。通过公开课,您可以了解构建AI搜索和AI Assistant的技术原理,并轻松掌握从0到1搭建企业级RAG应用,和基于大模型搭建可观测Chatbot,获取运维洞察。 讲师/嘉宾简介 朱杰(Elastic中国首席解决方案架构师、Elastic社区和阿里云Elasticsearch社区布道者) 槐新 (阿里云Elasticsearch引擎研发工程师)

1880 0