|
4月前
|
存储 缓存 NoSQL
|

Redis核心数据结构与分布式锁实现详解

Redis 是高性能键值数据库,支持多种数据结构,如字符串、列表、集合、哈希、有序集合等,广泛用于缓存、消息队列和实时数据处理。本文详解其核心数据结构及分布式锁实现,帮助开发者提升系统性能与并发控制能力。

282 0
|
4月前
|
编解码
|

【2025更新】视频压缩神器!视频体积瞬间缩小80%,可以指定大小压缩、批量压缩,超级良心免费使用!

Moo0视频压缩器是一款免费、高效的视频压缩工具,支持AVI、MP4等多种格式。可按文件大小、比例或屏幕尺寸智能压缩,兼顾画质与效率,操作简便,批量处理更省心,是2025年必备的视频压缩神器!

307 2
|
4月前
|
数据采集 人工智能 自然语言处理
|

DistillQwen-ThoughtY:通过变长思维链蒸馏,全面提升模型推理能力!

阿里云 PAI 团队基于 EasyDistill 框架,创新性地采用推理冗余度(RV)和认知难度(CD)双指标筛选机制,实现思维链与模型能力的精准匹配,发布新一代推理模型 DistillQwen-ThoughtY。相关模型和数据集已在 hugging face/ModelScope 等开源社区开放,配套 EasyDistill 框架支持高效知识蒸馏。近期内将推出 DistillQwen-ThoughtY 模型在 PAI-ModelGallery 的一键部署、训练和评测实践。

412 1
来自: 人工智能平台PAI  版块
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

推荐不准等于骚扰?AI是如何精准推荐你爱看的内容的

推荐不准等于骚扰?AI是如何精准推荐你爱看的内容的

161 0
|
5月前
|
机器学习/深度学习 存储 算法
|

SMOTE-XGBoost实战:金融风控中欺诈检测的样本不平衡解决方案

本文深入探讨金融支付风控领域中的欺诈检测问题,针对样本不平衡的核心痛点,提出一种基于动态密度SMOTE算法的改进方案,并结合优化后的XGBoost模型实现高性能检测。相比传统方法,本文方案在IEEE-CIS数据集上显著提升Recall(达0.85)和AUC-PR(达0.72),同时控制推理时延在合理范围。文章还详细解析特征工程体系、在线推理优化及动态阈值调整机制,并展望联邦学习与图神经网络等未来方向,为实际业务应用提供全面指导。

242 1
|
5月前
|
机器学习/深度学习 存储 运维
|

机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。

364 46
|
6月前
|
调度 vr&ar 图形学
|

虚拟现实如何改变影视制作?——从绿幕到沉浸式拍摄

虚拟现实如何改变影视制作?——从绿幕到沉浸式拍摄

273 14
|
7月前
|
并行计算 PyTorch 算法框架/工具
|

Triton入门教程:安装与编写和运行简单Triton内核

Triton是一款开源GPU编程语言与编译器,专为AI和深度学习领域设计,提供高性能GPU代码开发的高效途径。它支持通过Python编写自定义GPU内核,性能接近专家级CUDA代码,但无需掌握底层CUDA知识。本文全面介绍了Triton的核心功能、安装方法、基础应用、高级优化策略,以及与CUDA和PyTorch的技术对比。此外,还探讨了其在实际项目中的应用场景,如加速Transformer模型训练和实现高效的量化计算内核。Triton简化了GPU编程流程,降低了开发门槛,同时保持高性能表现,成为连接高级框架与底层硬件的重要工具。

650 3
|
7月前
|
缓存 前端开发 API
|

开发体育比分网站有哪些坑需要注意

开发体育比分网站需克服多方面挑战:数据来源上避免侵权,选用合法API;实时性上采用WebSocket等技术确保秒级更新;优化用户体验,极简设计配合实时动画;技术架构中使用缓存与微服务应对高并发;SEO方面通过SSR和服务端结构化数据提升搜索流量。示例代码展示了比赛数据的基本处理逻辑,包括设置比赛ID、状态、赢家信息及计划标记等功能。

203 62
|
7月前
|
JSON 数据挖掘 API
|

京东API接口最新指南:店铺所有商品接口的接入与使用

本文介绍京东店铺商品数据接口的应用与功能。通过该接口,商家可自动化获取店铺内所有商品的详细信息,包括基本信息、销售数据及库存状态等,为营销策略制定提供数据支持。此接口采用HTTP请求(GET/POST),需携带店铺ID和授权令牌等参数,返回JSON格式数据,便于解析处理。这对于电商运营、数据分析及竞品研究具有重要价值。

420 4
|
8月前
|
传感器 人工智能 物联网
|

健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?

健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?

1000 19
|
8月前
|
机器学习/深度学习 算法 安全
|

从量子芯片到纠错的漫长征途:量子计算硬件的进步与困境

从量子芯片到纠错的漫长征途:量子计算硬件的进步与困境

431 86
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践

3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。

1668 17
来自: 人工智能平台PAI  版块
|
8月前
|
存储 人工智能 算法
|

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

阿里云向量检索服务Milvus 2.5版本在全文检索、关键词匹配以及混合检索(Hybrid Search)方面实现了显著的增强,在多模态检索、RAG等多场景中检索结果能够兼顾召回率与精确性。本文将详细介绍如何利用 Milvus 2.5 版本实现这些功能,并阐述其在RAG 应用的 Retrieve 阶段的最佳实践。

1532 1
|
9月前
|
机器学习/深度学习 数据采集 人工智能
|

量子计算与人工智能的结合:引领科技革命的前沿

量子计算与人工智能的结合:引领科技革命的前沿

497 13
|
9月前
|
并行计算 安全 算法
|

量子计算在密码学中的应用与挑战:解密未来的安全

量子计算在密码学中的应用与挑战:解密未来的安全

461 6
|
9月前
|
存储 分布式计算 物联网
|

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。

684 58
|
9月前
|
人工智能 运维 自然语言处理
|

Elasticsearch AI Assistant 集成 DeepSeek,1分钟搭建智能运维助手

Elasticsearch 新支持 DeepSeek 系列模型,使用 AI 助手,通过自然语言交互,为可观测性分析、安全运维管理及数据智能处理提供一站式解决方案。

1027 3
|
9月前
|
供应链 搜索推荐 API
|

亚马逊商品列表数据接口(亚马逊 API 系列)

亚马逊的商品列表数据接口为电商从业者、数据分析人员和开发者提供了宝贵的市场洞察。通过该接口,用户可以批量获取商品的关键信息,包括基本信息、价格、销售排名和库存状态等,助力市场分析、竞品研究和商品推荐。开发者需在亚马逊开发者中心注册并申请API权限,使用安全凭证进行认证,支持HTTP/HTTPS协议的GET和POST请求。Python示例展示了如何调用接口获取商品列表,并解析响应数据。应用场景涵盖市场趋势分析、竞品对比、个性化推荐及库存管理,帮助商家优化策略,提升竞争力。

448 13
|
9月前
|
数据采集 Web App开发 监控
|

深度解析:使用ChromeDriver和webdriver_manager实现无头浏览器爬虫

在现代网络爬虫实践中,动态网页加载和反爬虫机制增加了数据采集的难度。采用无头浏览器技术(如Selenium与ChromeDriver)可有效模拟用户行为、执行JavaScript,获取动态内容。通过设置代理IP、伪装User-Agent和处理Cookies,提升爬虫隐蔽性和稳定性。该方案适用于电商价格监控、社交媒体数据采集和招聘信息抓取等场景,实现更高效的数据获取。

652 2
|
10月前
|
机器学习/深度学习 数据采集 定位技术
|

AirMSPI 椭圆体投影地理坐标辐射度产品包含云、气溶胶和地球表面的辐射和偏振图像

AirMSPI_ImPACT-PM_Ellipsoid-projected_Georegistered_Radiance_Data 是在 ImPACT-PM 飞行活动中获取的 AirMSPI 第6版椭球投影地理坐标辐射度产品。该数据包含云、气溶胶和地球表面的多角度、多光谱及偏振信息,涵盖8个波长(355至935纳米),并提供辐照度、时间、角度等参数。特别适用于大气颗粒物研究和遥感应用。数据格式为 HDF-EOS-5,采集时间为2016年7月5日至8日。

135 12
来自: 大数据计算 MaxCompute  版块
|
11月前
|
存储 SQL 大数据
|

从数据存储到分析:构建高效开源数据湖仓解决方案

今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。

797 7
来自: 实时计算 Flink  版块
|
11月前
|
人工智能 自然语言处理 安全
|

新浪微博AIGC业务应用探索-AIGC应用平台助力业务提效实践

本次分享围绕AIGC技术在新浪微博的应用展开,涵盖四个部分。首先分析AIGC为微博带来的机遇与挑战,特别是在内容安全和模型幻觉等问题上的应对策略;其次介绍通过工程架构快速实现AIGC技术落地的方法,包括统一部署模型和服务编排;接着展示AIGC在微博的具体应用场景,如评论互动、视频总结和智能客服等;最后展望未来,探讨大模型的发展趋势及其在多模态和特定业务场景中的应用前景。

447 6
|
11月前
|
Java 数据管理 Linux
|

StarRocks元数据无法合并

StarRocks版本在3.1.4及以下,并且使用了metadata_journal_skip_bad_journal_ids来跳过某个异常的journal,会导致FE元数据无法合并。

164 2
|
11月前
|
Web App开发 数据采集 JavaScript
|

CDP与Selenium相结合——玩转网页端自动化数据采集/爬取程序

本文介绍了Selenium、Chrome DevTools及Chrome DevTools Protocol (CDP) 的基本功能与应用。Selenium是一款开源自动化测试工具,适用于网页端应用程序测试和数据采集,具备跨平台特性。Chrome DevTools内置浏览器中,提供调试、分析Web应用程序的功能,包括元素、控制台、源代码和网络选项卡等。CDP是一套用于与Chromium内核浏览器通信的API,支持自动化测试和性能分析。文中还展示了Selenium与CDP结合使用的示例,如捕获网络请求数据和打印网页内容,并推荐了相关书籍和资源以供深入学习。

1359 39
|
11月前
|
机器学习/深度学习 搜索推荐 API
|

淘宝/天猫按图搜索(拍立淘)API的深度解析与应用实践

在数字化时代,电商行业迅速发展,个性化、便捷性和高效性成为消费者新需求。淘宝/天猫推出的拍立淘API,利用图像识别技术,提供精准的购物搜索体验。本文深入探讨其原理、优势、应用场景及实现方法,助力电商技术和用户体验提升。

746 2
|
12月前
|
人工智能 算法 物联网
|

企业级RAG全链路优化关键技术

本文深入解析了企业级RAG全链路的关键技术、效果优化、性能优化及应用实践。

954 7
|
12月前
|
机器学习/深度学习 数据采集 数据库
|

使用Python实现智能食品营养分析的深度学习模型

使用Python实现智能食品营养分析的深度学习模型

458 6
|
人工智能
|

新手必看,写歌词的技巧和方法新分享,妙笔生词AI智能写歌词软件

对于新手,写歌词不再难。本文分享了写歌词的实用技巧,如积累生活素材、明确主题、合理安排主副歌、简洁有力的语言表达等。推荐使用“妙笔生词智能写歌词软件”,其AI功能可助你灵感不断,轻松创作。

574 1
|
监控 安全 数据处理
|

淘宝 1688 跨境电商官方接口接入全攻略,跨境卖家必知

本攻略详述了接入1688跨境电商官方接口的全过程,涵盖注册申请、开发调试、数据处理与业务集成、安全合规及上线维护等环节,帮助开发者高效对接1688,拓展跨境业务。

1226 0
|
供应链 安全 API
|

常见的京东商品接口类型

京东商品接口是京东开放平台提供的一系列API,支持商品详情查询、商品搜索、评价查询、库存管理和订单处理等功能。开发者需注册获取API密钥,并按文档要求构造请求。这些接口助力开发者构建丰富的电商应用,提升用户体验。使用时需遵守平台规定,确保数据安全。

308 0
|
并行计算 大数据 数据处理
|

亿级数据处理,Pandas的高效策略

在大数据时代,数据量的爆炸性增长对处理技术提出更高要求。本文介绍如何利用Python的Pandas库及其配套工具高效处理亿级数据集,包括:采用Dask进行并行计算,分块读取以减少内存占用,利用数据库进行复杂查询,使用内存映射优化Pandas性能,以及借助PySpark实现分布式数据处理。通过这些方法,亿级数据处理变得简单高效,助力我们更好地挖掘数据价值。

535 1
|
数据采集 存储 人工智能
|

cdga|数据治理:应对核心业务数据质量参差不齐的挑战与策略

数据治理是指通过制定并实施一系列政策、流程和技术手段,确保数据的可用性、完整性、准确性和安全性,以支持企业的决策和业务运营。对于核心业务数据质量参差不齐的问题,数据治理的重要性不言而喻

940 0
|
机器学习/深度学习 数据采集 算法
|

数据稀缺条件下的时间序列微分:符号回归(Symbolic Regression)方法介绍与Python示例

有多种方法可以处理时间序列数据中的噪声。本文将介绍一种在我们的研究项目中表现良好的方法,特别适用于时间序列概况中数据点较少的情况。

336 1
|
存储 机器学习/深度学习 缓存
|

MemLong: 基于记忆增强检索的长文本LLM生成方法

本文介绍了一种名为MemLong的创新长文本处理方法,该方法通过整合外部检索器显著增强了大型语言模型处理长上下文的能力。MemLong采用轻量级设计,利用不可训练的外部记忆库存储历史上下文和知识,并通过检索相关的块级键值对增强模型输入。其技术优势包括分布一致性、高效训练策略及扩展的上下文窗口,能够在单个GPU上处理长达80k个token的文本,同时保持计算效率和内存控制。实验结果显示,MemLong在多个长文本基准数据集上表现出色,显著提升了语言建模能力和上下文学习效果。

1043 1
|
数据采集 Web App开发 JavaScript
|

Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping

随着互联网的发展,网页数据抓取已成为数据分析和市场调研的关键手段。Puppeteer是一款由Google开发的无头浏览器工具,可在Node.js环境中模拟用户行为,高效抓取网页数据。本文将介绍如何利用Puppeteer的高级功能,通过设置代理IP、User-Agent和Cookies等技术,实现复杂的Web Scraping任务,并提供示例代码,展示如何使用亿牛云的爬虫代理来提高爬虫的成功率。通过合理配置这些参数,开发者可以有效规避目标网站的反爬机制,提升数据抓取效率。

962 4
|
机器学习/深度学习 存储 人工智能
|

压缩大型语言模型(LLMs):缩小10倍、性能保持不变

尽管大规模语言模型(LLMs)在多种应用场景中表现出色,但其庞大的规模也带来了实际部署难题。本文探讨了通过模型压缩技术解决这些问题的方法,介绍了量化、剪枝和知识蒸馏三种主要压缩技术,并通过具体Python代码示例展示了如何将一个100M参数的文本分类模型压缩至52.8M参数,再通过4位量化进一步减小至原来的1/7,同时保持甚至提升性能。示例代码展示了从数据预处理、模型训练到评估的完整流程,证明了压缩技术的有效性。

722 6
|
人工智能 开发者
|

黑神话:悟空中的AI行为树设计

【8月更文第26天】在《黑神话:悟空》这款游戏中,NPC(非玩家角色)的智能行为对于创造一个富有沉浸感的游戏世界至关重要。为了实现复杂的敌人行为模式,游戏开发团队采用了行为树作为NPC决策的核心架构。本文将详细介绍《黑神话:悟空》中NPC AI的设计原理,特别关注行为树的设计与实现。

728 0
|
机器学习/深度学习 人工智能 自然语言处理
|

手把手带你5分钟搭建企业级AI问答知识库

【8月更文挑战第3天】手把手带你5分钟搭建企业级AI问答知识库

1214 4
来自: 实时数仓 Hologres  版块
|
SQL 分布式计算 DataWorks
|

DataWorks产品使用合集之如何查询数据地图Tag

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

192 0
|
消息中间件 Kubernetes 监控
|

实时计算 Flink版操作报错合集之在编译源码时遇到报错:无法访问,该如何处理

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

351 1
来自: 实时计算 Flink  版块
|
消息中间件 资源调度 Kafka
|

实时计算 Flink版操作报错合集之提交任务后,如何解决报错:UnavailableDispatcherOperationException

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

607 1
来自: 实时计算 Flink  版块
|
数据采集 监控 大数据
|

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式,它通过互联网服务提供商(ISP)池获取真实住宅用户的IP地址。在此背景下,住宅IP通常与特定的物理位置绑定,从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

802 1
|
存储 安全 区块链
|

云上数字资产管理:解锁数字经济新蓝海,护航企业价值增长

生态化建设:数字资产管理将不再局限于企业内部,而是逐步向生态化方向发展。企业将与产业链上下游伙伴、第三方服务机构等共同构建数字资产管理生态体系,实现资源的共享和价值的共创。 结语 云上数字资产管理作为数字经济时代的重要产物,正以其独特的优势和价值引领着企业资产管理的变革和发展。面对未来的机遇和挑战,企业需要不断加强技术创新和人才培养

732 0
|
弹性计算 分布式计算 DataWorks
|

MaxCompute操作报错合集之运行pyodps报错超时,该如何排查

MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

198 6
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 数据可视化
|

谷歌的时间序列预测的基础模型TimesFM详解和对比测试

在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析,并将该模型与统计和机器学习模型进行对比。

506 2
|
分布式计算 Java Serverless
|

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

本文以 ECS 连接 EMR Serverless Spark 为例,介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。

810 7
|
机器学习/深度学习 数据采集 算法
|

Python实现xgboost分类模型(XGBClassifier算法)项目实战

Python实现xgboost分类模型(XGBClassifier算法)项目实战

985 0
来自: 人工智能平台PAI  版块
|
安全 API 调度
|

「架构」嵌入式鸿蒙架构

**鸿蒙嵌入式架构概览** HarmonyOS,华为的分布式操作系统,应用于嵌入式设备,以微内核、跨平台能力和组件化设计著称。核心功能包括设备统一管理、分布式软总线及安全机制。特点:低时延、高安全性、易开发。优点在于灵活性、扩展性和性能,但需构建生态、增加开发者资源和争取市场认可。采用模块化设计,支持多语言开发,利用分布式通信协议和硬件抽象层,通过Huawei AppGallery推动应用生态。

789 0
|
自然语言处理 算法 API
|

「AIGC」Python实现tokens算法

使用Python的`transformers`库,通过`AutoTokenizer`初始化BERT tokenizer,对文本进行分词统计,减少API调用。示例展示从开始到结束的时间,包括文本转换为tokens的数量和过程耗时。

439 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

9
今日
67379
内容
127
活动
439363
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 日志服务
  • 检索分析服务 Elasticsearch版