大数据与机器学习-博文-第11页-阿里云开发者社区

melody2023

|

存储编解码 iOS开发

|

博文

视频文件格式：MOV与MP4格式的区别是什么？

视频文件有多种格式，很多人在下载时不知道该选择哪种文件格式。不同格式有不同特点，各自有优缺点。本文将详细介绍常见的MOV和MP4的特点与区别，以供读者了解及选择。

8223 2 2

aliyun4381607004

|

10月前

|

并行计算 PyTorch 算法框架/工具

|

博文

阿里云PAI-部署Qwen2-VL-72B

阿里云PAI-部署Qwen2-VL-72B踩坑实录

4117 1 3

来自：人工智能平台PAI 版块

郑小健

|

存储 Ubuntu 搜索推荐

|

博文

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

【8月更文第29天】**摘要** JupyterHub 是一个易于使用的、可伸缩的、多用户的 Jupyter Notebook 服务器。它允许您在一个集中式服务器上托管多个独立的 Jupyter Notebook 会话，非常适合团队协作和教学环境。本文将详细介绍如何安装和配置 JupyterHub，以及如何利用它来构建一个多用户 Jupyter 服务器环境。

4523 0 0

winx_19970108018

|

8天前

|

机器学习/深度学习算法 API

|

博文

淘宝API图片搜索 | 天猫商品图片识别 | 一键上传找相似商品

淘宝图片搜索API（拍立淘）基于图像识别与深度学习技术，支持通过图片查找相似商品，适用于比价、找同款等场景。提供精准匹配、多参数调节，助力开发者打造智能购物应用，提升搜索效率与用户体验。

162 2 2

申某某

|

10月前

|

存储缓存监控

|

博文

ClickHouse 是由 Yandex 开发的开源列式数据库，专为 OLAP 场景设计，支持高效的大数据分析。其核心特性包括列式存储、字段压缩、丰富的数据类型、向量化执行和分布式查询。ClickHouse 通过多种表引擎（如 MergeTree、ReplacingMergeTree、SummingMergeTree）优化了数据写入和查询性能，适用于电商数据分析、日志分析等场景。然而，它在事务处理、单条数据更新删除及内存占用方面存在不足。

3088 21 21

啦啦啦191

|

2月前

|

博文

一键解决 Office 卸载难题！微软官方卸载工具，点击下载开启轻松卸载之旅

微软官方Office卸载工具可彻底清除Office 2007至2021及365版本残留，解决重装报错问题。支持深度扫描与一键卸载，操作简单，卸载后需重启生效。

702 18 19

郑小健

|

机器学习/深度学习并行计算 PyTorch

|

博文

ONNX 优化技巧：加速模型推理

【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式，用于表示机器学习模型，使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎，旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。

6403 4 6

灵杰开发者

|

API Apache 数据库

|

博文

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

Flink CDC 于 2023 年 12 月 7 日重磅推出了其全新的 3.0 版本 ~

109361 8 10

来自：实时计算 Flink 版块

DuHz

|

2月前

|

机器学习/深度学习数据采集编解码

|

博文

Stable Video Diffusion：将潜在视频扩散模型扩展到大规模数据集——论文阅读

Stable Video Diffusion（SVD）是Stability AI提出的高分辨率视频生成模型，基于潜在扩散框架，通过三阶段训练与严格数据筛选，在文本到视频和图像到视频任务中实现高质量生成。论文系统研究了数据质量对模型性能的影响，提出级联切分检测、运动评分过滤、合成字幕优化等策略，并引入线性递增引导等创新技术，显著提升生成稳定性与视觉保真度。

433 4 4

aliyun7098646834-47940

|

10月前

|

机器学习/深度学习存储人工智能

|

博文

人工智能的三大主义

人工智能的三大主义之一——符号主义，通过数学和逻辑符号构建表达式以模拟人类思维。其代表性成果包括1956年的“逻辑理论家”程序和上世纪80年代的专家系统。1997年，“深蓝”计算机击败国际象棋冠军卡斯帕罗夫，是符号主义在博弈领域的巅峰之作。然而，由于人类智能的复杂性和广泛性，符号主义难以完全模拟人类感知和潜智能，逐渐走向衰落。

1807 0 0

星河造梦坊丨程序开发

|

缓存 Shell 开发工具

|

博文

Git Bash⭐一、安装软件，与Git Bash基础命令

5673 4 4

李麒麟

|

并行计算 Ubuntu Docker

|

博文

Docker环境Ubuntu20.04安装Python3.10版本

4967 0 0

Deephub

|

30天前

|

存储缓存调度

|

博文

vLLM 吞吐量优化实战：10个KV-Cache调优方法让tokens/sec翻倍

十个经过实战检验的 vLLM KV-cache 优化方法 —— 量化、分块预填充、前缀重用、滑动窗口、ROPE 缩放、后端选择等等 —— 提升 tokens/sec。

443 10 10

小空门123-30335

|

供应链 Python

|

博文

Demand Forecasting模型解释与Python代码示例

3169 1 1

winx_19970108018

|

12天前

|

API 开发者 Python

|

博文

「零基础」淘宝商品API调用指南：3步获取商品标题/价格/库存

注册淘宝开放平台账号，申请商品详情API权限并获取AppKey与AppSecret。通过RESTful接口，设置商品ID、返回字段等参数，使用Python发起HTTP请求，轻松获取商品标题、价格、库存等信息。

162 1 1

阿里云社区

|

机器学习/深度学习自动驾驶数据处理

|

博文

数据标注（一）

1880 1 2

楚国玉

|

机器学习/深度学习运维算法

|

博文

梯度&散度&旋度&峰度&偏度你分得清楚吗？驻点&鞍点你分得清楚吗？曲率&斜率你分得清楚吗？

本文介绍了四种常见的物理量：加速度，速度，位移和力学功。详细介绍了它们的定义、计算以及在物理学和工程学领域中的应用。此外，本文还介绍了四种与物理量相关的概念：向量、标量、质量和密度。数学，物理，机器学习领域常见概念区分

2527 0 0

SelectDB

|

3月前

|

SQL 关系型数据库 Apache

|

博文

从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路

本文将深入解析 Flink-Doris-Connector 三大典型场景中的设计与实现，并结合 Flink CDC 详细介绍了整库同步的解决方案，助力构建更加高效、稳定的实时数据处理体系。

1496 0 0

来自：实时计算 Flink 版块

竹相_左小空空

|

8月前

|

数据安全/隐私保护

|

博文

5分钟注册一个可用Gemini的谷歌邮箱账号

2020 23 25

想飞的雪糕

|

测试技术

|

博文

软件复杂度量化：McCabe度量法及其环路复杂度的计算方法

McCabe度量法（McCabe's Cyclomatic Complexity）是一种经典的方法，用于度量软件程序的复杂度。通过计算程序中独立路径的数量，帮助开发人员评估代码的维护难度和测试覆盖率。本文详细介绍了McCabe度量法的原理、计算方法及其在实际应用中的作用。

2378 0 0

Deephub

|

机器学习/深度学习存储移动开发

|

博文

从头开始实现LoRA以及一些实用技巧

LoRA是Low-Rank Adaptation或Low-Rank Adaptors的缩写，它提供了一种用于对预先存在的语言模型进行微调的高效且轻量级的方法。

1121 0 0

灵杰开发者

|

5天前

|

人工智能运维监控

|

博文

【2025云栖大会】AI 搜索引擎如何驱动亿级物流：货拉拉 x 阿里云 Elasticsearch

2025云栖大会 AI搜索与向量化模型专场上，拉拉 Elasticsearch技术负责人——陈敏华先生分享了 Elasticsearch 在全球化高并发业务场景下的深度实践，以及在迁移至阿里云 Elasticsearch Serverless 后的显著收益。货拉拉的案例为业界提供了可复制、可落地的技术范本。

85 4 4

来自：检索分析服务 Elasticsearch版版块

蒋星熠Jaxonic

|

30天前

|

数据采集机器学习/深度学习人工智能

|

博文

反爬虫机制深度解析：从基础防御到高级对抗的完整技术实战

本文系统阐述了反爬虫技术的演进与实践，涵盖基础IP限制、User-Agent检测，到验证码、行为分析及AI智能识别等多层防御体系，结合代码实例与架构图，全面解析爬虫攻防博弈，并展望智能化、合规化的发展趋势。

384 0 0

五维空间s

|

11月前

|

应用服务中间件 Linux 网络安全

|

博文

nginx安装部署ssl证书，同时支持http与https方式访问

为了使HTTP服务支持HTTPS访问，需生成并安装SSL证书，并确保Nginx支持SSL模块。首先，在`/usr/local/nginx`目录下生成RSA密钥、证书申请文件及自签名证书。接着，确认Nginx已安装SSL模块，若未安装则重新编译Nginx加入该模块。最后，编辑`nginx.conf`配置文件，启用并配置HTTPS服务器部分，指定证书路径和监听端口（如20000），保存后重启Nginx完成部署。

3387 8 10

CiiLii西里网

|

自然语言处理搜索推荐机器人

|

博文

阿里巴巴的通义千问大模型

阿里巴巴通义千问是基于Transformer的大型语言模型，预训练于多样化数据集，支持18亿至720亿参数规模。在多模态英文任务中表现出色，且具备多语言对话及图片文本识别能力。可应用于搜索引擎、问答系统和对话交互，提供智能体验。然而，模型在逻辑题和指令理解上存在不足，需在特定领域进行优化。

4441 1 1

来自：开源大数据平台 E-MapReduce 版块

灵杰开发者

|

2月前

|

人工智能运维 Java

|

博文

Flink Agents：基于Apache Flink的事件驱动AI智能体框架

本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲，深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体，结合Flink的实时处理能力，推动AI在工业场景中的工程化落地，涵盖智能运维、直播分析等典型应用，展现其在AI发展第四层次——智能体AI中的重要意义。

908 27 27

来自：实时计算 Flink 版块

Deephub

|

4月前

|

机器学习/深度学习数据可视化 PyTorch

|

博文

Flow Matching生成模型：从理论基础到Pytorch代码实现

本文将系统阐述Flow Matching的完整实现过程，包括数学理论推导、模型架构设计、训练流程构建以及速度场学习等关键组件。通过本文的学习，读者将掌握Flow Matching的核心原理，获得一个完整的PyTorch实现，并对生成模型在噪声调度和分数函数之外的发展方向有更深入的理解。

1578 0 0

小空门123-30335

|

供应链 Shell Python

|

博文

经济订货量（Economic Order Quantity，简称EOQ）

3881 1 1

宇之追寻

|

数据处理 Apache 流计算

|

博文

实时计算引擎 Flink：从入门到深入理解

本篇详细介绍了Apache Flink实时计算引擎的基本概念和核心功能。从入门到深入，逐步介绍了Flink的数据源与接收、数据转换与计算、窗口操作以及状态管理等方面的内容，并附带代码示例进行实际操作演示。通过阅读本文，读者可以建立起对Flink实时计算引擎的全面理解，为实际项目中的实时数据处理提供了有力的指导和实践基础。

5141 2 2

来自：实时计算 Flink 版块

dataworks_demo21

|

DataWorks

|

博文

DataWorks售前咨询

14013 8 10

来自：大数据开发治理DataWorks 版块

Echo_Wish

|

11天前

|

人工智能自然语言处理机器人

|

博文

别让AI“答非所问”：用数据调教聊天机器人，越聊越聪明

157 11 11

kng32f3vbngrm

|

SQL 存储 Java

|

博文

Hive 特殊的数据类型 Array、Map、Struct

在Hive中，`Array`、`Map`和`Struct`是三种特殊的数据类型。`Array`用于存储相同类型的列表，如`select array(1, "1", 2, 3, 4, 5)`会产生一个整数数组。`Map`是键值对集合，键值类型需一致，如`select map(1, 2, 3, "4")`会产生一个整数到整数的映射。`Struct`表示结构体，有固定数量和类型的字段，如`select struct(1, 2, 3, 4)`创建一个无名结构体。这些类型支持嵌套使用，允许更复杂的结构数据存储。例如，可以创建一个包含用户结构体的数组来存储多用户信息

2306 0 0

derek武汉

|

机器学习/深度学习算法数据挖掘

|

博文

聚类方法介绍

1080 0 1

Echo_Wish

|

8月前

|

存储分布式计算安全

|

博文

数据生命周期管理：从生成到销毁，数据的“生死”之旅

1498 6 6

TuGraphAnalytics

|

存储自然语言处理 NoSQL

|

博文

Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读

引入知识图谱技术后，传统RAG链路到Graph RAG链路会有什么样的变化，如何兼容RAG中的向量数据库（Vector Database）和图数据库（Graph Database）基座，以及蚂蚁的Graph RAG开源技术方案和未来优化方向。

6712 2 4

啦啦啦191

|

2月前

|

安全数据安全/隐私保护 Windows

|

博文

ZyperWin++使用教程！让Windows更丝滑！c盘飘红一键搞定！ZyperWin++解决系统优化、Office安装和系统激活

ZyperWin++是一款仅5MB的开源免费Windows优化工具，支持快速优化、自定义设置与垃圾清理，兼具系统加速、隐私保护、Office安装等功能，轻便无广告，小白也能轻松上手，是提升电脑性能的全能管家。

716 0 0

kng32f3vbngrm

|

分布式计算安全 Hadoop

|

博文

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

在HBase Shell遇到错误时，检查Hadoop非安全模式：`hdfs dfsadmin -safemode get`。问题解决在于`hbase-site.xml`中添加配置：Zookeeper客户端端口设为2181和预写日志提供者设为filesystem。

619 6 7

工程师甲

|

存储 JSON Oracle

|

博文

【最佳实践】esrally：Elasticsearch 官方压测工具及运用详解

由于 Elasticsearch（后文简称 es）的简单易用及其在大数据处理方面的良好性能，越来越多的公司选用 es 作为自己的业务解决方案。然而在引入新的解决方案前，不免要做一番调研和测试，本文便是介绍官方的一个 es 压测工具 esrally，希望能为大家带来帮助。

19539 0 4

来自：检索分析服务 Elasticsearch版版块

winx_19970108018

|

2天前

|

机器学习/深度学习 JSON 搜索推荐

|

博文

1688图片搜索API技术文档

1688图片搜索API（拍立淘）是阿里巴巴官方图像搜货工具，支持通过图片URL或Base64编码查找1688平台同款或相似商品。基于深度学习技术，精准匹配商品ID、标题、价格、销量、供应商等全维度信息，命中率超85%，单次响应≤1秒，支持批量调用与分页排序，适用于电商比价、选品采购等场景。

77 0 0

winx_19970108018

|

8天前

|

JSON 监控数据挖掘

|

博文

从零到一：淘宝店铺订单API接入全流程指南

淘宝订单API通过订单号获取完整交易数据，支持实时查询买家信息、商品明细及物流状态，适用于订单同步、物流监控与数据分析。采用RESTful设计，JSON格式响应，安全高效，助力电商自动化运营。

121 4 4

翻滚的樱桃肉

|

7月前

|

Linux 网络安全虚拟化

|

博文

阿里云开发者分享VMware17 Pro保姆级安装秘籍，详细步骤助你轻松搞定安装！

这是一篇超详细的VMware 17 Pro虚拟机下载与安装教程。VMware 17 Pro支持多操作系统模拟运行，适合开发、测试及教育使用。文章涵盖从下载到安装的全流程，包括解压安装包、接受协议、配置安装路径等步骤，并提供虚拟机优化（如安装VMware Tools、配置快照和共享文件夹）及使用指南。同时，针对常见问题如虚拟化未启用或软件阻止启动，提供了具体解决方案，帮助用户顺利部署和使用虚拟机环境。

2127 36 37

游客ocguhxjgzndzq

|

8月前

|

数据安全/隐私保护 UED 异构计算

|

博文

【大模型私有化部署要花多少钱？】一张图看懂你的钱用在哪

本文探讨了高性价比实现DeepSeek大模型私有化部署的方法，分为两部分：一是定义大模型性能指标，包括系统级（吞吐量、并发数）与用户体验级（首token生成时间、单token生成时间）指标，并通过roofline模型分析性能瓶颈；二是评估私有化部署成本，对比不同硬件（如H20和4090）及模型选择，结合业务需求优化资源配置。适合关注数据安全与成本效益的企业参考。

1937 1 1

一只笨鼠

|

11月前

|

存储监控数据可视化

|

博文

常见的分布式定时任务调度框架

分布式定时任务调度框架用于在分布式系统中管理和调度定时任务，确保任务按预定时间和频率执行。其核心概念包括Job（任务）、Trigger（触发器）、Executor（执行器）和Scheduler（调度器）。这类框架应具备任务管理、任务监控、良好的可扩展性和高可用性等功能。常用的Java生态中的分布式任务调度框架有Quartz Scheduler、ElasticJob和XXL-JOB。

3925 66 66

aliyun7098646834-47940

|

10月前

|

机器学习/深度学习人工智能算法

|

博文

人工智能的三大主义--——行为主义(actionism)，连接主义 (connectionism)

这段内容涵盖了人工智能领域的重要概念和历史节点。首先介绍了布鲁克斯的六足行走机器人及Spot机器狗，被视为新一代“控制论动物”。接着解释了感知机作为最简单的人工神经网络，通过特征向量进行二分类。1974年，沃伯斯提出误差反向传播（BP）算法，利用梯度调整权重以优化模型。最后，阐述了符号主义、连接主义和行为主义三大学派的发展与融合，强调它们在持续学习中共同推动人工智能的进步。

2847 0 0

Deephub

|

机器学习/深度学习算法

|

博文

概率分布深度解析：PMF、PDF和CDF的技术指南

本文将深入探讨概率分布，详细阐述概率质量函数（PMF）、概率密度函数（PDF）和累积分布函数（CDF）这些核心概念，并通过实际示例进行说明。

1265 15 15

Deephub

|

机器学习/深度学习人工智能数据可视化

|

博文

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构，挑战了多层感知器（mlp）的基础，通过在权重而非节点上使用可学习的激活函数（如b样条），提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理，将复杂函数分解为简单函数的组合，简化了神经网络的近似过程。与mlp相比，KAN在参数量较少的情况下能达到类似或更好的性能，并能直观地可视化，增强了模型的可解释性。尽管仍需更多研究验证其优势，KAN为深度学习领域带来了新的思路。

5610 5 5

长梦

|

存储数据库索引

|

博文

Python新手常见问题一：列表、元组、集合、字典区别是什么？

本文针对Python编程新手常遇到的问题，详细阐述了列表（List）、元组（Tuple）、集合（Set）和字典（Dictionary）这四种数据结构的核心区别。列表是一种有序且可变的数据序列，允许元素重复；元组同样有序但不可变，其内容一旦创建就不能修改；集合是无序、不重复的元素集，强调唯一性，主要用于数学意义上的集合操作；而字典则是键值对的映射容器，其中键必须唯一，而值可以任意，它提供了一种通过键查找对应值的有效方式。通过对这些基本概念和特性的对比讲解，旨在帮助初学者更好地理解并运用这些数据类型来解决实际编程问题。

2394 1 1

winx_19970108018

|

4天前

|

JSON 监控供应链

|

博文

京东商品详情API：从签名生成到JSON解析的完整实战指南

京东商品详情API是京东开放平台的核心接口，提供实时、准确的商品信息获取服务。支持查询商品基础信息、价格库存、SKU规格及销量评价等120+字段，数据延迟≤30秒，单次最多查询200个SKU，适用于价格监控、库存管理等场景。采用HTTP/HTTPS请求，返回标准化JSON格式，便于集成，助力电商数据高效采集与应用。

74 1 1

winx_19970108018

|

10天前

|

XML 供应链监控

|

博文

淘宝商品详情API赋能电商数据模型：从SKU分析到销量预测

淘宝商品详情API（taobao.item.get）通过商品ID实时获取标题、价格、库存等数据，支持RESTful风格与OAuth2.0认证，具备高实时性、字段定制和防封禁机制，适用于比价、库存监控等场景。

120 1 1

Echo_Wish

|

11天前

|

机器学习/深度学习人工智能自然语言处理

|

博文

多模态AI的脑回路：机器是怎么做到“看、听、说、想”的？

185 13 13

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

视频文件格式：MOV与MP4格式的区别是什么？

阿里云PAI-部署Qwen2-VL-72B

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

淘宝API图片搜索 | 天猫商品图片识别 | 一键上传找相似商品

ClickHouse 架构原理及核心特性详解

一键解决 Office 卸载难题！微软官方卸载工具，点击下载开启轻松卸载之旅

ONNX 优化技巧：加速模型推理

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

Stable Video Diffusion：将潜在视频扩散模型扩展到大规模数据集——论文阅读

人工智能的三大主义

Git Bash⭐一、安装软件，与Git Bash基础命令

Docker环境Ubuntu20.04安装Python3.10版本

vLLM 吞吐量优化实战：10个KV-Cache调优方法让tokens/sec翻倍

Demand Forecasting模型解释与Python代码示例

「零基础」淘宝商品API调用指南：3步获取商品标题/价格/库存

数据标注（一）

梯度&散度&旋度&峰度&偏度你分得清楚吗？驻点&鞍点你分得清楚吗？曲率&斜率你分得清楚吗？

从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路

5分钟注册一个可用Gemini的谷歌邮箱账号

软件复杂度量化：McCabe度量法及其环路复杂度的计算方法

从头开始实现LoRA以及一些实用技巧

【2025云栖大会】AI 搜索引擎如何驱动亿级物流：货拉拉 x 阿里云 Elasticsearch

反爬虫机制深度解析：从基础防御到高级对抗的完整技术实战

nginx安装部署ssl证书，同时支持http与https方式访问

阿里巴巴的通义千问大模型

Flink Agents：基于Apache Flink的事件驱动AI智能体框架

Flow Matching生成模型：从理论基础到Pytorch代码实现

经济订货量（Economic Order Quantity，简称EOQ）

实时计算引擎 Flink：从入门到深入理解

DataWorks售前咨询

别让AI“答非所问”：用数据调教聊天机器人，越聊越聪明

Hive 特殊的数据类型 Array、Map、Struct

聚类方法介绍

数据生命周期管理：从生成到销毁，数据的“生死”之旅

Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读

ZyperWin++使用教程！让Windows更丝滑！c盘飘红一键搞定！ZyperWin++解决系统优化、Office安装和系统激活

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

【最佳实践】esrally：Elasticsearch 官方压测工具及运用详解

1688图片搜索API技术文档

从零到一：淘宝店铺订单API接入全流程指南

阿里云开发者分享VMware17 Pro保姆级安装秘籍，详细步骤助你轻松搞定安装！

【大模型私有化部署要花多少钱？】一张图看懂你的钱用在哪

常见的分布式定时任务调度框架

人工智能的三大主义--——行为主义(actionism)，连接主义 (connectionism)

概率分布深度解析：PMF、PDF和CDF的技术指南

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

Python新手常见问题一：列表、元组、集合、字典区别是什么？

京东商品详情API：从签名生成到JSON解析的完整实战指南

淘宝商品详情API赋能电商数据模型：从SKU分析到销量预测

多模态AI的脑回路：机器是怎么做到“看、听、说、想”的？

大数据与机器学习

活跃用户

相关产品