大数据与机器学习-博文-第29页-阿里云开发者社区

icngor

|

消息中间件安全 Kafka

|

博文

如何为Kafka加上账号密码（二）

本小节我们就为Kafka添加最简单的认证方式，也就是SASL_PLAINTEXT（即SASL/PLAIN+ 非加密通道）。

2911 5 5

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

人工智能算法开发工具

|

博文

通义千问Qwen-72B-Chat基于PAI的低代码微调部署实践

本文将以 Qwen-72B-Chat 为例，介绍如何通过PAI平台的快速开始（PAI-QuickStart）部署和微调千问大模型。

109017 2 3

来自：人工智能平台PAI 版块

云梦泽123

|

博文

python-dict()

290 0 0

Jast

|

Linux Docker 容器

|

博文

CentOS7离线安装Docker

3385 0 0

xijie.xu

|

自然语言处理数据处理调度

|

博文

《Havenask分布式索引构建服务--Build Service》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎，深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask分布式索引构建服务——Build Service，主打稳定、快速、易管理，是在线系统提升竞争力的一大利器。

102995 3 5

来自：智能搜索推荐版块

Deephub

|

机器学习/深度学习算法 PyTorch

|

博文

挑战Transformer的新架构Mamba解析以及Pytorch复现

今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”

2915 2 2

一颗小树x

|

传感器数据采集编解码

|

博文

3D目标检测数据集 DAIR-V2X-V

本文分享国内场景3D目标检测，公开数据集 DAIR-V2X-V（也称为DAIR-V2X车端）。DAIR-V2X车端3D检测数据集是一个大规模车端多模态数据集，包括： 22325帧图像数据 22325帧点云数据 2D&3D标注基于该数据集，可以进行车端3D目标检测任务研究，例如单目3D检测、点云3D检测和多模态3D检测。

1601 0 1

theMilkyWay`

|

博文

如何在cmd中打开指定文件夹路径

3386 0 0

3D建模

|

数据可视化 Go vr&ar

|

博文

41 个下载免费 3D 模型的最佳网站

在哪里可以找到3D模型？现在许多网站都提供了大量免费和高质量的3D模型，以帮助所有3D创作者节省时间和精力。但是，并非您找到的所有3D模型都有质量保证或免费供个人使用！在本文中，我们收集了40多个最佳3D模型网站，包括室内设计，建筑外观设计，动物，物体，车辆，游戏角色和环境等，我们还为您提供了用户指南，以便您可以专注于创建其他一些令人惊叹的作品。

3442 0 1

机器学习之心

|

机器学习/深度学习数据采集

|

博文

区间预测 | MATLAB实现基于QRCNN-BiGRU-Multihead-Attention多头注意力卷积双向门控循环单元多变量时间序列区间预测

608 0 0

阿里云实时计算Flink

|

SQL 存储 NoSQL

|

博文

基于 Flink 构建大规模实时风控系统在阿里巴巴的落地

阿里云实时计算产品经理李佳林（风元）在 Flink 峰会的演讲。

4575 0 0

来自：实时计算 Flink 版块

开发者小助理

|

人工智能 Cloud Native 大数据

|

博文

“后红海”时代，阿里资深技术专家揭秘当下大数据体系

任何一种技术都会经历从阳春白雪到下里巴人的过程，就像我们对计算机的理解从 “戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面 20 年中，大数据技术也经历了这样的过程，从曾经高高在上的 “火箭科技（rocket science）”，成为了人人普惠的技术。

18286 0 1

来自：大数据计算 MaxCompute 版块

奔跑的数据

|

11天前

|

数据采集中间件 API

|

博文

别再手写低效的代理池了，试试这3个开箱即用的调度框架！

本文详解3种实战级代理调度框架：ProxyPool+API（中大型）、轻量轮询队列（中小项目）、Scrapy隧道中间件（快速升级），含核心代码、避坑要点与选型建议，助爬虫稳定高效运行。

80 0 0

游客kxwloxiunt6vy

|

12天前

|

存储安全算法

|

博文

构建云上数据安全防线：阿里云加密参数配置的最佳实践与合规指南

本文剖析未加密数据导致的安全事件，指出企业需从“边界防御”转向“数据本体加密”。详解哈希/分组算法选择、密钥管理、备份策略等精细化配置要点，并介绍阿里云KMS、CloudHSM、铜锁密码库等底层能力如何支撑终端加密软件实现合规、安全、高效、可控的内生数据防护。（239字）

103 1 1

Echo_Wish

|

2月前

|

缓存人工智能监控

|

博文

当大模型开始“碎碎念”：聊聊大模型日志分析与调优系统是怎么设计的

413 3 3

游客hmcsyzc6sa4ju

|

2月前

|

人工智能 vr&ar 开发工具

|

博文

基于 Rokid 灵珠与 UXR 3.0 的 AR 智能卡路里识别系统实战

本项目为“AR智能卡路里计算器”，基于Rokid灵珠（AR Lite/Studio）与UXR 3.0 SDK开发。用户佩戴眼镜直视食物，系统通过空间计算实时识别并弹出热量数据，支持水果/正餐双模式切换。采用程序化3D建模、零美术资源依赖、多模态交互（键鼠→手柄→手势捏合），实现“空间即看即得”的沉浸式健康饮食辅助体验。（239字）

306 3 3

代理IP不迷路

|

3月前

|

数据采集 Java Go

|

博文

爬虫项目该选 Python 还是 Golang？看这篇就够了

本文对比Python与Golang在爬虫开发中的七大维度：语法简洁性、第三方库丰富度（如Scrapy vs Colly）、并发性能（Goroutine vs GIL限制）、内存占用、代码可读性、数据处理能力（Pandas等优势）及部署便捷性（Go可直接编译为跨平台二进制），助你按需选型。

365 10 10

小小张说故事

|

3月前

|

机器学习/深度学习数据采集算法

|

博文

Scikit-learn 入门指南

scikit-learn 是 Python 最主流的机器学习库，提供统一、简洁的 API，覆盖数据预处理、模型训练到评估部署全流程。专注传统算法，轻量高效，无缝集成 NumPy/Pandas，是教学、原型开发与生产部署的首选工具。（239字）

791 15 15

winx_19970108018

|

3月前

|

数据采集监控 API

|

博文

京东商品详情 API（jd.item_get）

京东商品详情API（jd.item_get）是京东开放平台提供的标准化REST接口，支持获取商品标题、价格、库存、规格、促销及售后等全量信息，适用于数据采集、价格监控、比价工具及代购系统等场景。

445 1 2

游客ogm6hgopdrgay

|

4月前

|

人工智能监控 API

|

博文

Opus 4.5、GPT-5.2 与 Gemini 3 Pro：企业级场景下的大模型工程表现对比

本文从工程与生产视角，对比Opus 4.5、GPT-5.2、Gemini 3 Pro三款大模型在输出一致性、可控性、长上下文、接口确定性等维度的表现，强调企业级AI选型应重稳定性与系统友好度，而非单纯比拼能力。

384 4 4

来自：人工智能平台PAI 版块

狸奴算君

|

4月前

|

人工智能 JSON 物联网

|

博文

大模型微调完全指南：原理、实践与平台选择，让AI真正为你所用

微调是让通用大模型成为垂直领域“专家”的关键路径：通过小规模、高质量数据定向优化模型参数，实现专业适配。相比提示词工程的临时性，微调能内化知识、提升准确性与风格一致性。LoRA等高效微调技术大幅降低门槛，百条数据+单卡即可完成，兼顾效果与成本。（239字）

551 6 7

断箭42

|

4月前

|

机器学习/深度学习存储人工智能

|

博文

【AI大模型面试宝典七】- 训练优化篇

【AI大模型面试宝典】详解知识蒸馏：从软标签、温度机制到特征对齐，涵盖KL散度、黑/白盒蒸馏策略与代码实现，拆解高频面试题，助你精准掌握大模型压缩核心考点，轻松应对技术追问，offer拿到手软！

285 0 0

来自：人工智能平台PAI 版块

游客fdogdvk2mf5da

|

4月前

|

人工智能自然语言处理算法

|

博文

最近比较火的GEO适合哪些行业的推广？

GEO（生成式引擎优化）正重塑营销格局，通过优化内容结构与语义逻辑，抢占AI问答场景的引用权。据IDC与中国信通院数据，2025年全球市场规模超120亿美元，中国占55.4%。其在本地生活、跨境电商、文旅、房地产、教育、B2B制造及金融医疗等行业广泛应用，助力企业实现精准获客、提升转化率并构建长期数字资产，成为AI时代营销新基建。

931 3 3

星辰归鱼

|

5月前

|

存储缓存 JavaScript

|

博文

Vue3 Composition API深度解析：原理、用法与迁移实践

本文深度解析Vue3 Composition API的核心优势、常用API、底层原理与迁移实践，对比Options API的局限性，详解ref、reactive、watch、生命周期钩子等用法，剖析基于Proxy的响应式机制，并提供渐进式迁移策略，助开发者高效掌握Vue3开发范式。

578 0 0

星辰归鱼

|

5月前

|

机器学习/深度学习数据采集存储

|

博文

融合共生的智能时代引擎

本文系统解析大数据与机器学习的融合价值，阐述二者“数据喂养模型、模型激活数据”的协同关系，涵盖技术流程、典型应用场景及发展挑战，并展望轻量化模型、可信AI、行业定制化与AutoML等未来趋势，揭示智能时代的核心驱动力。

253 0 0

星辰归鱼

|

5月前

|

关系型数据库 MySQL 数据库

|

博文

用 Python 实现 MySQL 数据库定时自动备份

本文介绍如何用Python脚本实现MySQL数据库的自动化备份。通过调用`mysqldump`工具，结合时间戳命名、文件压缩与定时任务（如crontab），可轻松实现“无人值守”备份。涵盖配置修改、安全建议及日志管理，提升备份效率与可靠性，适用于日常开发与生产环境。

286 0 0

游客hua3a7ejc2opu

|

5月前

|

机器学习/深度学习数据采集人工智能

|

博文

大模型训练方法与技术术语解释

预训练、微调、RLHF、思维链等技术共同构建大模型核心能力。预训练夯实语言基础，微调适配特定任务，RLHF对齐人类偏好，思维链提升推理，少/零样本实现快速迁移，指令微调增强指令理解，自监督利用海量文本，温度控制生成风格，蒸馏压缩模型规模，缩放定律指引性能增长路径。

501 0 0

Echo_Wish

|

5月前

|

SQL 分布式计算运维

|

500 8 8

游客wzltd6melqxgo

|

6月前

|

边缘计算自然语言处理算法

|

博文

实时交互数字人端到端延迟压至0.8秒：关键技术节点与商业价值解析

0.8秒是实时数字人体验的关键阈值，端到端延迟低于此值可实现自然流畅交互。本文解析其技术链路、核心支撑与商业价值，揭示为何这一指标成为数字人从“可用”到“好用”的分水岭。

763 4 4

来自：人工智能平台PAI 版块

游客vv4u4wyick5ti

|

6月前

|

人工智能自然语言处理数据可视化

|

博文

2025 ChatBI 产品选型推荐：智能问数+归因分析+报告生成

当企业站在 ChatBI 选型的十字路口，技术架构的先进性、场景适配的完整性、落地实践的可验证性应成为核心考量标准。

1032 0 0

蒋星熠Jaxonic

|

8月前

|

机器学习/深度学习人工智能算法

|

博文

卷积神经网络深度解析：从基础原理到实战应用的完整指南

蒋星熠Jaxonic带你深入卷积神经网络（CNN）核心技术，从生物启发到数学原理，详解ResNet、注意力机制与模型优化，探索视觉智能的演进之路。

745 11 11

Deephub

|

8月前

|

存储人工智能 NoSQL

|

博文

用Context Offloading解决AI Agent上下文污染，提升推理准确性

上下文工程是将AI所需信息（如指令、数据、工具等）动态整合到模型输入中，以提升其表现。本文探讨了“上下文污染”问题，并提出“上下文卸载”策略，通过LangGraph实现，有效缓解长文本处理中的信息干扰与模型幻觉，提升AI代理的决策准确性与稳定性。

1069 2 2

winx_19970108018

|

9月前

|

JSON API 数据格式

|

博文

抖音商品列表API秘籍！轻松获取商品列表页面数据

抖音商品列表API是抖音开放平台的核心电商接口，支持按分类、关键词、销量等条件筛选商品，具备分页、排序、数据过滤等功能，适用于电商整合、竞品分析等场景。接口返回JSON格式数据，包含商品列表、总数及分页信息，提供Python请求示例，便于开发者快速接入。

711 0 0

winx_19970108018

|

10月前

|

JSON 搜索推荐 API

|

博文

小红书笔记详情API响应数据解析

小红书开放平台提供笔记详情API，支持获取笔记内容、互动数据及用户信息，适用于品牌营销与市场分析。接口支持HTTP GET/POST请求，返回JSON格式数据。需申请权限并替换参数如note_id与access_token。附Python请求示例，建议添加异常处理。

458 0 0

网络AI

|

10月前

|

人工智能数据可视化开发工具

|

博文

开发效率提升5倍！聚AI的LangFlow可视化全栈指南

LangFlow 是一个强大的可视化流程开发工具，支持全平台部署与多模型集成。通过 Docker 快速启动、本地开发或云服务部署，用户可灵活配置环境。其核心功能包括四大对象管理、可视化编程、自定义组件开发及与 LangChain 的深度整合，适用于客户服务、金融、医疗等多领域自动化流程构建。结合性能优化与版本管理，助力开发者高效实现企业级 AI 应用。

1439 4 4

小白学大数据

|

11月前

|

数据采集存储 API

|

博文

Python爬虫结合API接口批量获取PDF文件

915 0 0

探索云世界

|

11月前

|

人工智能分布式计算大数据

|

博文

构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践

本文介绍了大数据与AI一体化架构的演进及其实现方法，重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战，如数据管理混乱、开发效率低下和运维管理困难，并提出了解决方案。同时，详细描述了MaxCompute在构建AI时代数据基础设施中的作用，包括其强大的计算能力、调度能力和易用性特点。此外，还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例，最后提供了体验MaxFrame解决方案的方式。

1230 2 2

来自：大数据计算 MaxCompute 版块

Aron_NeAr

|

11月前

|

SQL 分布式计算 API

|

博文

Apache Spark详解

Apache Spark 是一个开源、分布式计算引擎，专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性，大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX，支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型，支持多语言（Scala/Java/Python/R），并拥有强大的 Catalyst 优化器和类型安全的 Dataset API，广泛应用于大数据分析和处理场景。

1418 8 8

Deephub

|

存储人工智能自然语言处理

|

博文

构建智能AI记忆系统：多智能体系统记忆机制的设计与技术实现

本文探讨了多智能体系统中记忆机制的设计与实现，提出构建精细化记忆体系以模拟人类认知过程。文章分析了上下文窗口限制的技术挑战，并介绍了四种记忆类型：即时工作记忆、情节记忆、程序性记忆和语义知识系统。通过基于文件的工作上下文记忆、模型上下文协议的数据库集成以及RAG系统等技术方案，满足不同记忆需求。此外，高级技术如动态示例选择、记忆蒸馏和冲突解决机制进一步提升系统智能化水平。总结指出，这些技术推动智能体向更接近人类认知的复杂记忆处理机制发展，为人工智能开辟新路径。

1323 5 5

熊猫比分大卫

|

消息中间件数据采集人工智能

|

博文

本文详解了如何使用Python与Selenium结合代理IP技术，从金融网站（如东方财富网）抓取由JavaScript渲染的隐藏表格数据。内容涵盖环境搭建、代理配置、模拟用户行为、数据解析与分析等关键步骤。通过设置Cookie和User-Agent，突破反爬机制；借助Selenium等待页面渲染，精准定位动态数据。同时，提供了常见错误解决方案及延伸练习，帮助读者掌握金融数据采集的核心技能，为投资决策提供支持。注意规避动态加载、代理验证及元素定位等潜在陷阱，确保数据抓取高效稳定。

516 17 17

翻滚的樱桃肉

|

人工智能运维 Kubernetes

|

博文

2025 超详细！Lens Kubernetes IDE 多平台下载安装与集群管理教程

Lens 是一款企业级 Kubernetes 可视化操作平台，2025版实现了三大技术革新：AI智能运维（异常检测准确率98.7%）、多云联邦管理（支持50+集群）和实时3D拓扑展示。本文介绍其安装环境、配置流程、核心功能及高阶技巧，帮助用户快速上手并解决常见问题。适用于 Windows、macOS 和 Ubuntu 系统，需满足最低配置要求并前置依赖组件如 kubectl 和 Helm。通过 Global Cluster Hub 实现多集群管理，AI辅助故障诊断提升运维效率，自定义监控看板和插件生态扩展提供更多功能。

2641 2 2

爱专研的技术土狗

|

小程序测试技术数据安全/隐私保护

|

博文

微信公众号接口测试实战指南

微信公众号接口测试是确保系统稳定性和功能完整性的重要环节。本文详细介绍了测试全流程，包括准备、工具选择（如Postman、JMeter）、用例设计与执行，以及常见问题的解决方法。通过全面测试，可以提前发现潜在问题，优化用户体验，确保公众号上线后稳定运行。内容涵盖基础接口、高级接口、微信支付和数据统计接口的测试，强调了功能验证、性能优化、安全保护及用户体验的重要性。未来，随着微信生态的发展，接口测试将面临更多挑战和机遇，如小程序融合、AI应用和国际化拓展。

1527 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

如何为Kafka加上账号密码（二）

通义千问Qwen-72B-Chat基于PAI的低代码微调部署实践

python-dict()

CentOS7离线安装Docker

《Havenask分布式索引构建服务--Build Service》

挑战Transformer的新架构Mamba解析以及Pytorch复现

3D目标检测数据集 DAIR-V2X-V

如何在cmd中打开指定文件夹路径

41 个下载免费 3D 模型的最佳网站

区间预测 | MATLAB实现基于QRCNN-BiGRU-Multihead-Attention多头注意力卷积双向门控循环单元多变量时间序列区间预测

基于 Flink 构建大规模实时风控系统在阿里巴巴的落地

“后红海”时代， 阿里资深技术专家揭秘当下大数据体系

别再手写低效的代理池了，试试这3个开箱即用的调度框架！

构建云上数据安全防线：阿里云加密参数配置的最佳实践与合规指南

当大模型开始“碎碎念”：聊聊大模型日志分析与调优系统是怎么设计的

基于 Rokid 灵珠与 UXR 3.0 的 AR 智能卡路里识别系统实战

爬虫项目该选 Python 还是 Golang？看这篇就够了

Scikit-learn 入门指南

京东商品详情 API（jd.item_get）

Opus 4.5、GPT-5.2 与 Gemini 3 Pro：企业级场景下的大模型工程表现对比

大模型微调完全指南：原理、实践与平台选择，让AI真正为你所用

【AI大模型面试宝典七】- 训练优化篇

最近比较火的GEO适合哪些行业的推广？

Vue3 Composition API深度解析：原理、用法与迁移实践

融合共生的智能时代引擎

用 Python 实现 MySQL 数据库定时自动备份

大模型训练方法与技术术语解释

一套平台养百家客户？多租户数据平台不是“分库分表”这么简单

GEO优化：AI时代的流量新密码

教育行业如何做GEO？让AI成为你的课程推荐官

用数据给婚恋 App 把把脉：让匹配更靠谱、聊天更顺畅、留存更健康

实时交互数字人端到端延迟压至0.8秒：关键技术节点与商业价值解析

2025 ChatBI 产品选型推荐：智能问数+归因分析+报告生成

卷积神经网络深度解析：从基础原理到实战应用的完整指南

用Context Offloading解决AI Agent上下文污染，提升推理准确性

抖音商品列表API秘籍！轻松获取商品列表页面数据

小红书笔记详情API响应数据解析

开发效率提升5倍！聚AI的LangFlow可视化全栈指南

Python爬虫结合API接口批量获取PDF文件

构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践

Apache Spark详解

构建智能AI记忆系统：多智能体系统记忆机制的设计与技术实现

体育直播网站如何实现实时数据

云上玩转Qwen3系列之二：PAI-LangStudio搭建联网搜索和RAG增强问答应用

通过Milvus和Langchain快速构建基于百炼大模型的LLM问答系统

Ventoy 是一款开源的多系统启动U盘工具

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

金融数据分析：解析JavaScript渲染的隐藏表格

2025 超详细！Lens Kubernetes IDE 多平台下载安装与集群管理教程

微信公众号接口测试实战指南

大数据与机器学习

活跃用户

相关产品

“后红海”时代，阿里资深技术专家揭秘当下大数据体系