|
7月前
|
Cloud Native 中间件 调度
|

云原生信息提取系统:容器化流程与CI/CD集成实践

本文介绍如何通过工程化手段解决数据提取任务中的稳定性与部署难题。结合 Scrapy、Docker、代理中间件与 CI/CD 工具,构建可自动运行、持续迭代的云原生信息提取系统,实现结构化数据采集与标准化交付。

323 1
|
9月前
|
缓存 并行计算 测试技术
|

阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试

阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试

2182 12
来自: 人工智能平台PAI  版块
|
10月前
|
传感器 人工智能 物联网
|

智能鞋:从脚下开始的科技革命

智能鞋:从脚下开始的科技革命

803 6
|
12月前
|
SQL 存储 HIVE
|

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。

1518 1
来自: 实时计算 Flink  版块
|
11天前
|
数据采集 人工智能 安全
|

2026AI元年:AI 落地范式转移:已被反复验证的产业级实践共识

本文探讨AI从技术竞赛迈向产业落地的关键转型:2026年成规模化应用分水岭。强调落地核心不在模型参数,而在数据治理、工作流重构、RAG工程化、推理可控性、人类协同机制及四大落地准则——场景对齐、知识解耦、架构弹性、迭代闭环。

122 0
|
22天前
|
人工智能 搜索推荐 算法
|

不懂向量数据库?一文讲透其原理与应用场景

向量数据库通过将文本、图像等非结构化数据转化为“数学指纹”(向量),实现语义级相似性检索。它突破传统数据库的精确匹配局限,支撑智能客服、推荐系统与RAG应用。核心原理是Embedding编码+高效索引(如HNSW、IVF),支持亿级数据毫秒搜索。结合元数据过滤的混合查询,显著提升准确性。未来将迈向多模态融合与自适应智能检索,是AI时代不可或缺的基础设施。

267 0
|
27天前
|
存储 缓存 数据建模
|

StarRocks + Paimon: 构建 Lakehouse Native 数据引擎

12月10日,Streaming Lakehouse Meetup Online EP.2重磅回归,聚焦StarRocks与Apache Paimon深度集成,探讨Lakehouse Native数据引擎的构建。活动涵盖架构统一、多源联邦分析、性能优化及可观测性提升,助力企业打造高效实时湖仓一体平台。

328 39
来自: 实时计算 Flink  版块
|
1月前
|
JSON 监控 API
|

闲鱼商品详情API接口文档

本接口用于获取闲鱼商品详情,包括标题、价格、库存、卖家信息、图片链接、交易记录等核心数据,返回JSON格式,适用于商品监控、竞品分析等合规场景。需通过模拟请求或授权方式调用,注意反爬机制。

265 1
|
2月前
|
SQL Java 关系型数据库
|

二、Hive安装部署详细过程

手把手教你完成 Hive 的安装、配置和可视化连接,适合初学者快速搭建自己的大数据分析平台。内容涵盖从环境准备、Metastore配置,到 DataGrip 连接的全流程,并附带实用的排错指南,助你轻松迈出 Hive 入门第一步。

573 14
|
4月前
|
人工智能 数据处理 API
|

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来

Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。

767 6
来自: 实时计算 Flink  版块
|
7月前
|
分布式计算 Java 流计算
|

Fluss on 鲲鹏 openEuler 大数据实战

本文介绍了基于华为鲲鹏ARM架构服务器与openEuler操作系统,构建包含HDFS、ZooKeeper、Flink、Fluss及Paimon的实时大数据环境的完整实战过程。涵盖了软硬件配置、组件部署、集群规划、环境变量设置、安全认证及启停脚本编写等内容,适用于企业级实时数据平台搭建与运维场景。

975 0
来自: 实时计算 Flink  版块
|
11月前
|
存储 机器学习/深度学习 数据建模
|

数据建模入门指南:从懵懂小白到高手的第一步

数据建模入门指南:从懵懂小白到高手的第一步

1945 15
|
17天前
|
人工智能 PyTorch 算法框架/工具
|

在无网络与8G内存约束下,个人计算机部署AI实践

本文探讨在无网络、仅8GB内存、无GPU的老旧PC上本地部署大语言模型的实践路径。通过构建纯净Python环境、选用PyTorch格式小模型(Qwen1.5-0.5B)、规避系统陷阱(如长路径限制、注册表关联错误等),成功实现离线中文对话,形成可复现的避坑指南与技术参考。(239字)

240 13
|
29天前
|
弹性计算 小程序 关系型数据库
|

阿里云服务器多少钱一年?整理2026年云服务器新购、续费和升级配置费用清单

阿里云2026年服务器价格出炉!轻量服务器低至38元/年,ECS新购续费同价,2核2G仅99元/年起。本文详解轻量服务器与ECS区别、配置费用、升级规则及省钱技巧,助你选对方案,轻松上云,一年省下上千元。

279 1
|
2月前
|
消息中间件 SQL API
|

今日练习

本课程作业旨在掌握Docker部署RabbitMQ、消息队列在医嘱系统中的应用,以及对接第三方短信API。通过实战完成消息发送与消费,并接入真实短信服务,提升中间件与外部接口集成能力。(238字)

188 1
|
2月前
|
SQL 分布式计算 算法
|

别再一把梭哈了:聊聊文件格式里的压缩取舍——Snappy 和 Zstd 到底怎么选?

别再一把梭哈了:聊聊文件格式里的压缩取舍——Snappy 和 Zstd 到底怎么选?

224 4
|
5月前
|
数据采集 自动驾驶 机器人
|

数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响

数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响

404 1
|
7月前
|
安全 Java 网络安全
|

Java 实现 SMTP 协议调用的详细示例及实战指南 SMTP Java 调用示例

本文介绍了如何使用Java调用SMTP协议发送邮件,涵盖SMTP基本概念、JavaMail API配置、代码实现及注意事项,适合Java开发者快速掌握邮件发送功能集成。

816 0
|
9月前
|
机器学习/深度学习 Python
|

拯救数据不平衡:imbalanced-learn库详解

当你的数据像翘翘板一样严重倾斜时,该如何挽救你的机器学习模型?本文详解imbalanced-learn库的四大绝招,帮你轻松应对数据不平衡问题,提升模型性能。

348 8
|
10月前
|
人工智能 自然语言处理 DataWorks
|

Qwen3 X DataWorks :为数据开发与分析加满Buff !

阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。

604 27
|
11月前
|
数据可视化 固态存储 图形学
|

解锁3D创作新姿势!Autodesk 3ds Max 2022中文版安装教程(附官方下载渠道)

Autodesk 3ds Max 2022 是一款专业三维建模、动画和渲染软件,广泛应用于影视、游戏、建筑等领域。其特点包括智能建模工具、高效Arnold渲染引擎、跨平台协作及多语言支持。安装需满足Win10/11系统、i5以上处理器、8GB内存等要求。正版安装流程包括下载官方程序、配置组件、激活许可证并验证功能。常见问题如安装失败、中文乱码等提供了解决方案。扩展学习资源推荐Forest Pack、V-Ray等插件,助力用户深入掌握软件功能。

2706 24
|
11月前
|
机器学习/深度学习 运维 数据挖掘
|

时间序列特征提取:18 种高效工具库及其应用分析

时间序列特征提取是数据科学的重要环节,可将原始数据转化为分析价值高的特征表示。本文介绍18个Python库,涵盖通用与专业领域(如医疗、金融)的特征提取工具。这些库包括tsfeatures、tsfresh、librosa等,各自针对特定任务(如预测、分类、异常检测)提供独特功能。通过结合不同库的特点,数据科学家能更高效地进行特征工程,提升模型性能与分析深度。文章总结了各库的优势及适用场景,为实际应用提供了全面指导。

689 0
|
20天前
|
数据采集 人工智能 JSON
|

AI大模型微调完全指南:从原理到实践,轻松打造专属模型

大模型微调是让通用AI变身专业助手的核心技术。通过少量领域数据训练,可打造懂医疗、法律或企业专属业务的AI模型,成本低、效率高。无需编程基础,四步即可完成:准备数据、选基座模型、设参数、训练评估。未来,人人皆可定制AI。

193 2
|
2月前
|
人工智能 运维 自然语言处理
|

朝阳永续基于阿里云 Milvus 构建金融智能投研产品“AI 小二”

朝阳永续通过采用阿里云向量检索服务 Milvus 版,构建了金融级智能投研引擎“AI 小二”,实现了对海量公告、研报和财报数据的高效语义检索。在智能问答、管理层表述分析等场景中,查询响应速度提升超 10 倍,系统稳定性显著增强,运维成本降低 80%,全面提升了投研效率与用户体验。

274 0
|
3月前
|
机器学习/深度学习 数据可视化 算法
|

Python | 网格搜索参数优化的XGBoost+SHAP可解释性分析回归预测及可视化算法

本教程将推出Python实现的XGBoost回归预测,结合网格搜索调参与SHAP可解释性分析,涵盖数据处理、模型训练、可视化及结果保存,助力科研论文提升模型可解释性,附完整代码与保姆级环境配置指南。

502 1
|
3月前
|
人工智能 自然语言处理 机器人
|

中小企业也能玩转大模型:把AI搬到自己机房里不是梦

中小企业也能玩转大模型:把AI搬到自己机房里不是梦

746 3
|
5月前
|
JavaScript Java 关系型数据库
|

基于springboot的快递分拣管理系统

本系统基于SpringBoot框架,结合Java、MySQL与Vue技术,构建智能化快递分拣管理平台。通过自动化识别、精准分拣与实时跟踪,提升分拣效率与准确性,降低人力成本,推动快递行业向智能化、高效化转型,助力电商物流高质量发展。

684 0
|
6月前
|
人工智能 分布式计算 DataWorks
|

大数据AI产品月刊-2025年7月

大数据& AI 产品技术月刊【2025年7月】,涵盖7月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

701 2
|
7月前
|
存储 Java 大数据
|

Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)

简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。

437 0
|
8月前
|
SQL 存储 消息中间件
|

Trino权威指南

Trino(原Presto SQL)是一款开源分布式SQL查询引擎,专为大数据联邦查询设计。它支持秒级查询PB级数据,可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用,适合交互式分析与BI场景。Trino采用无共享架构,通过列式内存格式和动态代码生成优化性能,并提供丰富的连接器实现计算存储分离,最大化下推优化以提升效率。

1400 3
|
12天前
|
人工智能 安全 物联网
|

告别数据泄露:三步构建企业级AI的隐私保护盾

企业微调大模型面临数据不出域与合规强监管的双重挑战。本文详解差分隐私(加噪声)、联邦学习(数据不动模型动)和LoRA(仅调0.1%参数)三重防护技术,覆盖脱敏、训练、部署全链路,并提供可运行代码与ε值选型指南,助你安全打造专属AI。(239字)

114 1
|
21天前
|
数据采集 人工智能 机器人
|

2026年 智能体来了!什么是 AI 智能体工程化?为什么金加德强调 Workflow + Code 才能真正落地?

AI智能体工程化是将AI从聊天工具升级为“数字员工”,通过流程编排(Workflow)、代码逻辑(Code)与知识增强(RAG),让其稳定执行重复性业务流程,实现可复用、可落地的自动化生产。

226 6
来自: 人工智能平台PAI  版块
|
1月前
|
机器学习/深度学习 人工智能 算法
|

【AI大模型面试宝典七】- 训练优化篇

【AI大模型面试宝典】聚焦强化学习核心考点:从SARSA轨迹、在线/离线数据来源,到同策略与异策略差异,深入解析PPO、DPO、GRPO等主流算法原理与优化技巧,助你系统掌握RLHF、奖励模型设计及训练稳定性方案,轻松应对大模型面试高频难题,快速提升实战能力,offer拿到手软!

219 0
来自: 人工智能平台PAI  版块
|
2月前
|
机器学习/深度学习 算法 算法框架/工具
|

基于yolov8的深度学习水果识别检测系统

在农业现代化与消费升级背景下,基于YOLOv8的水果智能检测系统应运而生。该系统利用计算机视觉技术,实现高效、精准的水果识别与分级,广泛应用于生产、流通与零售环节,显著提升分拣效率、降低人工成本,并推动农业智能化发展。

244 1
|
2月前
|
数据采集 安全 API
|

高精度IP定位:准确性提升与数据优化全攻略

使用IP数据云、IPinfo、IPnews这类专业的IP数据服务平台检测,不仅可以查询IP,更是一个网络风险识别仪器。对于跨境电商、安全研究人员,或者想提高上网隐私的人来说,都挺值得收藏学习。

409 1
|
3月前
|
关系型数据库 MySQL PHP
|

0 基础建站?PageAdmin CMS 10 分钟搞定,源码免费拿!

PageAdmin CMS 为无编程基础用户提供高效建站方案。步骤包括:准备服务器、域名及源码;上传源码并配置数据库;通过安装向导完成基础设置;在后台创建栏目、填充内容;测试功能后上线。全程无需编程,简单操作即可搭建独立网站,支持后续维护与扩展。

389 1
|
5月前
|
存储 编解码 监控
|

针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容

针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。

1149 2
|
6月前
|
人工智能 分布式计算 自然语言处理
|

多智能体系统设计:5种编排模式解决复杂AI任务

本文探讨了多AI智能体协作中的关键问题——编排。文章指出,随着系统从单体模型向多智能体架构演进,如何设计智能体之间的通信协议、工作流程和决策机制,成为实现高效协作的核心。文章详细分析了五种主流的智能体编排模式:顺序编排、MapReduce、共识模式、分层编排和制作者-检查者模式,并分别介绍了它们的应用场景、优势与挑战。最后指出,尽管大模型如GPT-5提升了单体能力,但在复杂任务中,合理的智能体编排仍不可或缺。选择适合的编排方式,有助于在系统复杂度与实际效果之间取得平衡。

1220 10
|
10月前
|
Linux 虚拟化 Docker
|

win11怎么安装docker的必要设置自学软硬件工程师778天

win11怎么安装docker的必要设置自学软硬件工程师778天

890 4
|
11月前
|
JSON 自然语言处理 API
|

合合信息TextIn大模型加速器2.0发布:智能图表解析测评

随着人工智能技术的飞速发展,大规模语言模型(LLM)在自然语言处理、图像识别、语音合成等领域的应用日益广泛。然而,大模型的计算复杂度和资源消耗问题也日益凸显。为了解决这一问题,合合信息TextIn推出了大模型加速器2.0,旨在提升大模型的训练和推理效率,降低计算成本,完成智能问答与对话式交互,深度概括与定位等。本文将对合合信息TextIn大模型加速器2.0进行详细测评,重点关注其在智能图表解析任务中的表现。

795 0
|
12月前
|
机器学习/深度学习 算法 PyTorch
|

DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解

强化学习(RL)是提升大型语言模型(LLM)推理能力的重要手段,尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化(GRPO)方法,在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果,显著增强了数学推理和问题解决能力。GRPO无需价值网络,采用群组采样和相对优势估计,有效解决了传统RL应用于语言模型时的挑战,提升了训练效率和稳定性。实际应用中,DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析,进一步拓展语言模型的能力边界。

2080 8
|
1月前
|
存储 机器学习/深度学习 人工智能
|

构建AI智能体:八十一、SVD模型压缩的艺术:如何科学选择K值实现最佳性能

本文探讨了SVD(奇异值分解)在深度学习模型压缩中的应用。随着模型规模不断扩大,面临的存储、计算和能耗问题日益突出。SVD通过将大型矩阵分解为三个特殊矩阵(U、Σ、Vᵀ),并根据奇异值大小进行截断,实现模型的高效压缩。文章详细分析了SVD的数学原理、压缩机制和参数选择策略,重点讨论了如何通过能量保留、目标压缩率和拐点检测等方法确定最佳截断秩k。以一个500×300的用户-物品矩阵为例,实证显示k=32时能实现82.93%的压缩率,99.97%的能量保留和5.86倍计算加速,达到了精度损失与压缩收益的最佳平衡

181 5
|
2月前
|
机器学习/深度学习 存储 自然语言处理
|

大模型基础概念术语解释

大语言模型(LLM)基于Transformer架构,通过海量文本训练,实现强大语言理解与生成。其核心为自注意力机制,结合Token化、位置编码与嵌入层,支持万亿级参数规模。参数增长带来涌现能力,如复杂推理与泛化性能。混合专家模型(MoE)提升效率,推动模型持续扩展。

325 0
|
8月前
|
定位技术
|

安徽京准分享:北斗RDSS授时和北斗授时RNSS的区别

安徽京准分享:北斗RDSS授时和北斗授时RNSS的区别

1486 15
|
11月前
|
数据采集 存储 数据可视化
|

分布式爬虫框架Scrapy-Redis实战指南

本文介绍如何使用Scrapy-Redis构建分布式爬虫系统,采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略,实现高效数据抓取。结合价格动态趋势分析,助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储,提供完整的技术路线图与代码示例。

1168 0
|
11月前
|
人工智能 运维 Kubernetes
|

2025 超详细!Lens Kubernetes IDE 多平台下载安装与集群管理教程

Lens 是一款企业级 Kubernetes 可视化操作平台,2025版实现了三大技术革新:AI智能运维(异常检测准确率98.7%)、多云联邦管理(支持50+集群)和实时3D拓扑展示。本文介绍其安装环境、配置流程、核心功能及高阶技巧,帮助用户快速上手并解决常见问题。适用于 Windows、macOS 和 Ubuntu 系统,需满足最低配置要求并前置依赖组件如 kubectl 和 Helm。通过 Global Cluster Hub 实现多集群管理,AI辅助故障诊断提升运维效率,自定义监控看板和插件生态扩展提供更多功能。

2157 2
|
12月前
|
JSON API 数据格式
|

携程网获取景点列表 API 接口(携程 API 系列)

携程作为国内知名的在线旅游服务提供商,其景点列表API对接口功能、参数和返回格式进行了详细定义。该接口可获取景点基本信息(名称、地区、开放时间等),支持条件筛选查询(如按地区、评分、价格区间等)。接口返回JSON或XML格式数据,并设有调用限制以确保系统稳定性和数据安全。虽然携程未公开免费API,开发者可通过商务合作申请权限。以下为模拟Python请求示例,展示了如何使用该接口获取景点信息。 代码示例中,通过`requests.get()`发送GET请求,设置请求参数(如地区、门票价格等)和请求头(模拟浏览器访问),并处理响应数据。实际应用需替换为真实的接口URL,并遵循携程官方文档要求。

2347 0
|
10天前
|
SQL 人工智能 安全
|

手把手教你调出“懂你”的AI:大模型微调实战与资源管理

本文深入浅出讲解大模型微调核心知识:用生活化比喻解析学习率、训练轮数、批量大小、截断长度和LoRA秩五大关键参数;提供适配不同显存的实操配置表;分享Liger Kernel、DeepSpeed等省显存技巧;并强调定量、定性与效率三维评估。零基础也能快速上手定制专属AI。

119 11
|
24天前
|
存储 数据采集 人工智能
|

大模型微调显存计算:从原理到实践的精准把控

本文深入解析大模型微调中的显存占用问题,揭示8GB显存为何能跑7B模型的真相。从显存四大组成部分入手,结合量化、LoRA、AdamW8bit等优化策略,手把手教你精准计算与压缩显存,让低配显卡也能高效微调大模型,助力AI实践入门。

241 3
|
3月前
|
人工智能 自然语言处理 搜索推荐
|

阿里云 AI 搜索 DeepSearch 技术实践

阿里云OpenSearch LLM版推出DeepSearch技术,实现从RAG 1.0到RAG 2.0的升级。基于多智能体协同架构,支持复杂推理、多源检索与深度搜索,显著提升问答准确率,助力企业智能化升级。

861 23

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
69051
内容
128
活动
439685
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务