|
6月前
|
消息中间件 存储 数据采集
|

Apache InLong:构建10万亿级数据管道的全场景集成框架

Apache InLong(应龙)是一站式、全场景海量数据集成框架,支持数据接入、同步与订阅,具备自动、安全、可靠和高性能的数据传输能力。源自腾讯大数据团队,现为 Apache 顶级项目,广泛应用于广告、支付、社交等多个领域,助力企业构建高效数据分析与应用体系。

526 0
|
7月前
|
机器学习/深度学习 存储 Java
|

Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)

本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。

303 0
|
7月前
|
API 开发工具 开发者
|

快速获取线下场景POI数据,分享场景查询API体验指南

本文介绍了如何通过“场景查询(名称关键词)”API快速获取POI数据。该API只需输入场景关键词即可返回丰富的POI信息,如名称、地址、经纬度等,支持品牌、分类、城市等多维度筛选,并提供分页功能。接口简洁易用,响应速度快,适合用于竞品分析、门店扩展等场景。开发者可通过开放平台注册获取API Key,并使用SDK快速集成。推荐有POI查询需求的开发者体验使用。

275 0
|
7月前
|
人工智能 数据可视化 开发工具
|

开发效率提升5倍!聚AI的LangFlow可视化全栈指南

LangFlow 是一个强大的可视化流程开发工具,支持全平台部署与多模型集成。通过 Docker 快速启动、本地开发或云服务部署,用户可灵活配置环境。其核心功能包括四大对象管理、可视化编程、自定义组件开发及与 LangChain 的深度整合,适用于客户服务、金融、医疗等多领域自动化流程构建。结合性能优化与版本管理,助力开发者高效实现企业级 AI 应用。

964 4
|
7月前
|
JSON 分布式计算 大数据
|

springboot项目集成大数据第三方dolphinscheduler调度器

springboot项目集成大数据第三方dolphinscheduler调度器

456 3
|
7月前
|
机器学习/深度学习 搜索推荐 API
|

京东拍立淘API-以图搜图中的图像搜索算法

京东拍立淘API基于深度学习,利用CNN提取图像特征,结合余弦相似度实现商品精准匹配。支持图片搜索、类目限定与相似度筛选,日均处理千万级请求,广泛应用于移动购物与社交带货场景。

382 4
|
7月前
|
编解码
|

【2025更新】视频压缩神器!视频体积瞬间缩小80%,可以指定大小压缩、批量压缩,超级良心免费使用!

Moo0视频压缩器是一款免费、高效的视频压缩工具,支持AVI、MP4等多种格式。可按文件大小、比例或屏幕尺寸智能压缩,兼顾画质与效率,操作简便,批量处理更省心,是2025年必备的视频压缩神器!

666 2
|
7月前
|
人工智能 自然语言处理 并行计算
|

大模型面经:任务、clip、diffusion

本文简要介绍了文本生成的常见预训练任务(如MLM、CLM、NSP等),多模态模型中的SOTA模型及CLIP的优势,以及多模态大模型如Stable Diffusion的原理。重点解析了Stable Diffusion的扩散机制与图像生成流程,帮助理解其高效性和广泛应用的原因。

497 5
|
7月前
|
数据安全/隐私保护
|

项目介绍:基于ChartScanAI的crypto currency决策系统

ChartScanAI 是一个基于 GitHub 的增强型加密货币交易策略工具,结合 RSI、EMA、ADX 和 OBV 等技术指标,通过动态权重分配与蜡烛图模式识别,实现多周期(1h、4h、1d、1w)交易信号生成。策略内置市场状态判断、信号加权评分、风险管理(ATR 止损止盈)及仓位控制逻辑,旨在提升交易适应性与收益风险比。

247 1
|
7月前
|
存储 并行计算 算法
|

CUDA性能优化实战:7个步骤让并行归约算法提升10倍效率

https://avoid.overfit.cn/post/af59d0a6ce474b8fa7a8eafb2117a404

465 1
|
8月前
|
存储 安全 Java
|

2025 年最新 40 个 Java 基础核心知识点全面梳理一文掌握 Java 基础关键概念

本文系统梳理了Java编程的40个核心知识点,涵盖基础语法、面向对象、集合框架、异常处理、多线程、IO流、反射机制等关键领域。重点包括:JVM运行原理、基本数据类型、封装/继承/多态三大特性、集合类对比(ArrayList vs LinkedList、HashMap vs TreeMap)、异常分类及处理方式、线程创建与同步机制、IO流体系结构以及反射的应用场景。这些基础知识是Java开发的根基,掌握后能为后续框架学习和项目开发奠定坚实基础。文中还提供了代码资源获取方式,方便读者进一步实践学习。

2288 2
|
8月前
|
JSON 分布式计算 搜索推荐
|

用 Spark 优化亿级用户画像计算:Delta Lake 增量更新策略详解

在亿级用户画像计算中,传统全量更新面临数据量大、更新频繁、延迟敏感等挑战。本文详解如何结合 Spark 与 Delta Lake 实现高效增量更新,通过仅处理变化数据,显著降低资源消耗并提升实时性,助力构建高性能用户画像系统。

415 3
|
8月前
|
Go vr&ar 图形学
|

把娱乐“搬到”你眼前:增强现实AR如何让文娱产业更卷更有趣?

把娱乐“搬到”你眼前:增强现实AR如何让文娱产业更卷更有趣?

593 8
|
8月前
|
人工智能 分布式计算 DataWorks
|

大数据& AI 产品月刊【2025年5月】

大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

463 59
|
9月前
|
机器学习/深度学习 人工智能 监控
|

业余AI与专业AI的区别,就在这些评估指标上

如何知道你训练的AI模型是天才还是学渣?本文用轻松幽默的方式带你了解机器学习的各类评估指标,让你不仅能说出模型的好坏,还能找到改进的方向,避免在实际应用中翻车。

538 8
|
9月前
|
存储 机器学习/深度学习 人工智能
|

多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本

本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。

2431 0
|
9月前
|
数据可视化 数据挖掘 数据安全/隐私保护
|

Python实现时间序列动量策略:波动率标准化让量化交易收益更平稳

时间序列动量策略(TSMOM)是一种基于资产价格趋势的量化交易方法,通过建立多头或空头头寸捕捉市场惯性。然而,传统TSMOM策略因风险敞口不稳定而面临收益波动问题。波动率调整技术通过动态调节头寸规模,维持恒定风险水平,优化了策略表现。本文系统分析了波动率调整TSMOM的原理、实施步骤及优势,强调其在现代量化投资中的重要地位,并探讨关键参数设定与实际应用考量,为投资者提供更平稳的风险管理体验。

493 4
|
9月前
|
数据采集 安全 网络安全
|

使用aiohttp实现异步HTTPS爬虫的SSL优化

使用aiohttp实现异步HTTPS爬虫的SSL优化

501 81
|
9月前
|
机器学习/深度学习 PyTorch 编译器
|

深入解析torch.compile:提升PyTorch模型性能、高效解决常见问题

PyTorch 2.0推出的`torch.compile`功能为深度学习模型带来了显著的性能优化能力。本文从实用角度出发,详细介绍了`torch.compile`的核心技巧与应用场景,涵盖模型复杂度评估、可编译组件分析、系统化调试策略及性能优化高级技巧等内容。通过解决图断裂、重编译频繁等问题,并结合分布式训练和NCCL通信优化,开发者可以有效提升日常开发效率与模型性能。文章为PyTorch用户提供了全面的指导,助力充分挖掘`torch.compile`的潜力。

1055 17
|
9月前
|
数据采集 存储 监控
|

Scrapy框架下地图爬虫的进度监控与优化策略

Scrapy框架下地图爬虫的进度监控与优化策略

308 3
|
9月前
|
数据采集 前端开发 JavaScript
|

Python爬虫如何应对网站的反爬加密策略?

Python爬虫如何应对网站的反爬加密策略?

677 11
|
9月前
|
消息中间件 运维 Kafka
|

直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!

在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)

632 35
来自: 实时计算 Flink  版块
|
9月前
|
JSON 数据挖掘 API
|

小红书笔记评论API接口如何使用

小红书作为生活方式分享平台,评论是用户互动的核心形式。通过小红书笔记评论API接口,开发者可高效获取特定笔记下的评论数据(如内容、昵称、时间、点赞数等),用于舆情分析、用户反馈收集和市场调研。请求参数包括`note_id`、`page`、`page_size`、`timestamp`和`sign`,采用HTTP方式调用,返回JSON格式数据,为业务决策提供数据支持。

731 2
|
9月前
|
机器学习/深度学习 PyTorch 数据处理
|

PyTorchVideo实战:从零开始构建高效视频分类模型

本文详细介绍了基于PyTorchVideo和PyTorch Lightning构建视频分类模型的全流程。通过Kinetics数据集,利用3D ResNet-50实现高效动作识别。教程涵盖数据加载与增强、模型构建及训练流程,结合两大框架优势,简化开发复杂度并提升性能,为视频理解任务提供完整解决方案。

469 3
|
9月前
|
机器学习/深度学习 算法 搜索推荐
|

数据不忽悠:如何用大数据预测未来?

数据不忽悠:如何用大数据预测未来?

529 12
|
9月前
|
机器学习/深度学习 人工智能 算法
|

大数据与机器学习:数据驱动的智能时代

本文探讨了大数据与机器学习在数字化时代的融合及其深远影响。大数据作为“新时代的石油”,以其4V特性(体量、多样性、速度、真实性)为机器学习提供燃料,而机器学习通过监督、无监督、强化和深度学习等技术实现数据价值挖掘。两者协同效应显著,推动医疗、金融、零售、制造等行业创新。同时,文章分析了数据隐私、算法偏见、可解释性及能耗等挑战,并展望了边缘计算、联邦学习、AutoML等未来趋势。结语强调技术伦理与实际价值并重,倡导持续学习以把握智能时代机遇。

410 13
|
9月前
|
负载均衡 算法 关系型数据库
|

大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!

本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。

502 14
|
10月前
|
机器学习/深度学习 算法 数据挖掘
|

PyTabKit:比sklearn更强大的表格数据机器学习框架

PyTabKit是一个专为表格数据设计的新兴机器学习框架,集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn,PyTabKit通过元级调优的默认参数设置,在无需复杂超参调整的情况下,显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力,使其成为企业决策与竞赛建模的理想工具。

382 12
|
10月前
|
数据采集 JSON API
|

Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势

小红书作为社交电商的重要平台,其笔记评论蕴含丰富市场洞察与用户反馈。本文介绍的小红书笔记评论API,可获取指定笔记的评论详情(如内容、点赞数等),支持分页与身份认证。开发者可通过HTTP请求提取数据,以JSON格式返回。附Python调用示例代码,帮助快速上手分析用户互动数据,优化品牌策略与用户体验。

1866 3
|
10月前
|
数据采集 JSON API
|

Python 实战!利用 API 接口获取小红书笔记详情的完整攻略

小红书笔记详情API接口帮助商家和数据分析人员获取笔记的详细信息,如标题、内容、作者信息、点赞数等,支持市场趋势与用户反馈分析。接口通过HTTP GET/POST方式请求,需提供`note_id`和`access_token`参数,返回JSON格式数据。以下是Python示例代码,展示如何调用该接口获取数据。使用时请遵守平台规范与法律法规。

1131 0
|
10月前
|
数据采集 算法 数据挖掘
|

CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用

英伟达提出的CLIMB框架,是一种自动化优化大型语言模型(LLM)预训练数据混合的创新方法。通过语义嵌入与聚类技术,CLIMB能系统地发现、评估并优化数据混合策略,无需人工干预。该框架包含数据预处理、迭代自举及最优权重确定三大阶段,结合小型代理模型与性能预测器,高效搜索最佳数据比例。实验表明,基于CLIMB优化的数据混合训练的模型,在多项推理任务中显著超越现有方法,展现出卓越性能。此外,研究还构建了高质量的ClimbMix数据集,进一步验证了框架的有效性。

480 0
|
10月前
|
JSON API 数据格式
|

深入研究:1688商品评论API详解

本文介绍如何通过第三方数据服务平台获取1688商品评论数据。由于1688官方未提供通用评论API,商家和研究人员可借助第三方接口分析消费者反馈、优化产品与服务。使用时需注册账号获取API Key,并通过必要参数(如商品ID、页码等)调用接口,返回JSON格式的评论数据。文中提供了Python示例代码,利用`requests`库发送请求,帮助用户快速上手,注意根据实际平台调整API地址和参数。

382 12
|
10月前
|
Ubuntu Linux Windows
|

Ventoy 是一款开源的多系统启动U盘工具

Ventoy是一款开源多系统启动U盘工具,支持Legacy BIOS和UEFI模式,可直接启动多个ISO文件(无需解压),兼容Windows、Linux等系统。只需下载安装Ventoy到U盘,拷贝ISO文件即可实现多系统启动。官网:https://www.ventoy.net,GitHub:https://github.com/ventoy/Ventoy。制作需8GB以上U盘及Win7以上系统。

1671 154
|
10月前
|
数据采集 存储 Web App开发
|

轻量级爬虫框架Feapder入门:快速搭建企业级数据管道

本教程基于Feapder框架,讲解如何构建轻量级爬虫采集豆瓣电影数据。通过配置代理IP、Cookie与User-Agent,实现企业级数据管道能力,包括动态请求与信息提取(如电影名称、导演、演员等)。适合具备Python基础及爬虫原理知识的读者,提供从环境搭建到代码实现的完整流程,并分析常见错误与解决方法,助力高效开发。

496 1
|
10月前
|
机器学习/深度学习 人工智能 运维
|

智能可穿戴设备如何革新职业健康管理?

智能可穿戴设备如何革新职业健康管理?

319 6
|
10月前
|
机器学习/深度学习 人工智能 编译器
|

本地化部署DeepSeek-R1蒸馏大模型:基于飞桨PaddleNLP 3.0的实战指南

本文基于飞桨框架3.0,详细介绍了在Docker环境下部署DeepSeek-R1-Distill-Llama-8B蒸馏模型的全流程。飞桨3.0通过动静统一自动并行、训推一体设计等特性,显著优化大模型的推理性能与资源利用效率。实战中,借助INT8量化和自动化工具,模型在8卡A100上仅需60GB显存即可运行,推理耗时约2.8-3.2秒,吞吐率达10-12 tokens/s。本文为国产大模型的高效本地部署提供了工程参考,适配多场景需求。

573 2
|
10月前
|
存储 分布式计算 OLAP
|

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。

667 59
|
11月前
|
算法 数据可视化 BI
|

基于免疫算法的最优物流仓储点选址方案MATLAB仿真

本程序基于免疫算法实现物流仓储点选址优化,并通过MATLAB 2022A仿真展示结果。核心代码包括收敛曲线绘制、最优派送路线规划及可视化。算法模拟生物免疫系统,通过多样性生成、亲和力评价、选择、克隆、变异和抑制机制,高效搜索最优解。解决了物流仓储点选址这一复杂多目标优化问题,显著提升物流效率与服务质量。附完整无水印运行结果图示。

365 20
|
11月前
|
存储 机器学习/深度学习 数据挖掘
|

数据湖 vs 数据仓库:你家到底该买冰箱还是建个地下室?

数据湖 vs 数据仓库:你家到底该买冰箱还是建个地下室?

1516 17
|
11月前
|
缓存 JSON JavaScript
|

体育应用怎么通过API接口接入数据源与直播源

本文介绍了体育类应用接入数据源与直播源的API接口方案。主要包括:1) 数据源API接入,涉及选择提供商、接入流程及常见数据类型;2) 直播源接入,涵盖直播源类型、提供商和技术方案;3) 技术实现要点,如数据缓存、实时更新机制和安全性考虑;4) 成本优化建议。附有HLS播放示例及Node.js完整集成代码,帮助开发者高效实现体育应用功能。

861 21
|
11月前
|
传感器 人工智能 监控
|

可穿戴设备在运动领域的应用:科技让运动更智能

可穿戴设备在运动领域的应用:科技让运动更智能

592 9
|
11月前
|
SQL 存储 监控
|

Hologres诊断与优化快速入门

本文由赵红梅(Hologres PD)撰写,分享如何利用诊断与调优工具提升SQL和数据库异常的全方位诊断能力,增强实例稳定性。内容涵盖五个部分:事前通过监控指标实时监控;事中通过活跃日志发现并处理问题;事后通过慢Query日志与Query洞察诊断性能瓶颈;成本治理借助表管理工具优化资源;以及利用诊断工具实现长期稳定性治理。具体包括CPU、内存、I/O等监控指标设置,慢Query优化,错Query治理,SQL诊断报告生成,表Meta问题修复及表索引诊断报告的应用,全面覆盖实例监控、问题定位、性能优化和成本控制等方面。

350 0
来自: 实时数仓 Hologres  版块
|
11月前
|
人工智能 自然语言处理 搜索推荐
|

阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024

在新加坡 ElasticON 2025 的 Elastic 合作伙伴峰会上,阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024!

599 1
|
11月前
|
存储 分布式计算 Hadoop
|

从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路

577 79
|
11月前
|
机器学习/深度学习 运维 自然语言处理
|

当深度学习遇上故障根因分析:运维人的绝佳拍档

当深度学习遇上故障根因分析:运维人的绝佳拍档

496 17
|
11月前
|
算法 数据安全/隐私保护
|

泵浦光与斯托克斯光相遇耦合效应的matlab模拟与仿真

本程序使用MATLAB2022A模拟泵浦光与斯托克斯光在非线性光学材料中的耦合效应,基于拉曼散射原理。通过非线性薛定谔方程描述两者相互作用,实现能量转换与放大。核心代码展示了时间与距离上的光强变化,最终生成动态图像展示耦合过程。完整程序无水印,运行结果如附图所示。该仿真有助于理解非线性光学现象及其应用。

247 14
|
11月前
|
存储 人工智能 自然语言处理
|

基于QwQ-32B+Hologres+PAI搭建 RAG 检索增强对话系统

本文介绍如何使用PAI-EAS部署基于QwQ大模型的RAG服务,并关联Hologres引擎实例。Hologres与达摩院自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时、简单易用的向量计算能力。通过PAI-EAS,用户可以一键部署集成大语言模型(LLM)和检索增强生成(RAG)技术的对话系统服务,显著缩短部署时间并提升问答质量。具体步骤包括准备Hologres向量检索库、部署RAG服务、通过WebUI页面进行模型推理验证及API调用验证。Hologres支持高性能向量计算,适用于复杂任务的动态决策,帮助克服大模型在领域知识局限、信息更新滞后和误导性输出等方面的挑战。

722 1
来自: 实时数仓 Hologres  版块
|
11月前
|
Linux 虚拟化 Windows
|

VMware隐藏黑科技!CentOS安装这个神器效率翻倍 文件互传竟比U盘还快?

### 安装VMtools的作用及步骤 安装VMtools可以实现Windows与CentOS之间的字符串和命令粘贴、文件夹共享等操作。在CentOS中,通过VMware菜单栏选择“VMware Tools”,将下载的压缩包拷贝到`/opt`目录并解压。接着进入终端,使用`./vmware-install.pl`命令完成安装。安装后重启系统,即可实现Windows与CentOS之间的字符和文件共享。具体步骤包括解压文件、启动命令行终端、安装VMtools以及配置文件共享。

398 16
|
11月前
|
缓存 负载均衡 安全
|

HTTP代理服务器对速度提升有何作用?

在信息化时代,网络成为生活不可或缺的一部分。HTTP代理服务器位于客户端与服务器之间,通过数据压缩、缓存机制和路由优化等方式,有效提高数据传输速度并保护个人信息安全。使用91HTTP等工具,用户可在业务需求中获得更快更安全的网络体验。

316 4
来自: 大数据计算 MaxCompute  版块
|
11月前
|
人工智能 数据可视化 数据挖掘
|

工业零件不良率、残次率的智能数据分析和数字化管理

在传统工业领域,我们通过引入DataV-Note平台,成功实现了企业智能数据分析与数字化管理的初步目标。这一平台不仅显著提升了数据处理的效率和准确性,还为我们的日常运营提供了更加科学、直观的决策支持。然而,这只是智能化转型的第一步。展望未来,我们期望能够进一步深化技术应用,推动企业管理向更高层次的智能化方向迈进。通过持续优化数据分析能力、完善数字化管理体系,我们致力于将企业的运营模式从传统的经验驱动转变为数据驱动,从而全面提升管理效能和市场竞争力,为企业创造更大的长期价值

577 129

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69094
内容
128
活动
439688
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务