大数据与机器学习-博文-第7页-阿里云开发者社区

ChenAI_TGF

|

21天前

|

人工智能 PyTorch Linux

|

博文

GLM-4V-9B 视觉多模态模型本地部署教程【保姆级教程】

本教程详细介绍如何在Linux服务器上本地部署智谱AI的GLM-4V-9B视觉多模态模型，涵盖环境配置、模型下载、推理代码及4-bit量化、vLLM加速等优化方案，助力高效实现图文理解与私有化应用。

346 2 2

碟中碟玩家

|

8月前

|

安全 Linux Android开发

|

博文

如何将Kindle电子书下载到电脑：技术流程与操作解析

随着数字阅读兴起，Kindle成为主流电子书平台。然而，Amazon的封闭生态和DRM限制，使用户难以灵活管理书籍。本文从技术角度出发，讲解如何合法下载Kindle电子书至电脑，包括使用Kindle for PC、USB导出及进阶方案（如Android模拟器、WINE环境）。同时介绍文件格式处理、自动化备份与阅读体验优化方法，并强调版权合规的重要性，助您构建个人数字图书馆。

2889 3 3

aliyun4381607004

|

并行计算 PyTorch 算法框架/工具

|

博文

阿里云PAI-部署Qwen2-VL-72B

阿里云PAI-部署Qwen2-VL-72B踩坑实录

5146 1 3

来自：人工智能平台PAI 版块

hannahc001

|

人工智能 JSON 算法

|

博文

LabelU是一款专为AI项目设计的强大多模态数据标注工具，支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项，让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作，以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全，也提供在线版本方便快速上手。此外，OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具，进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情，并为这些优秀工具点赞支持！

1652 0 0

来自：开源大数据平台 E-MapReduce 版块

一颗小树x

|

存储传感器数据可视化

|

博文

3D目标检测数据集 KITTI（标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图）

本文介绍在3D目标检测中，理解和使用KITTI 数据集，包括KITTI 的基本情况、下载数据集、标签格式解析、3D框可视化、点云转图像、画BEV鸟瞰图等，并配有实现代码。

4517 1 1

工程师甲

|

存储 JSON Oracle

|

博文

【最佳实践】esrally：Elasticsearch 官方压测工具及运用详解

由于 Elasticsearch（后文简称 es）的简单易用及其在大数据处理方面的良好性能，越来越多的公司选用 es 作为自己的业务解决方案。然而在引入新的解决方案前，不免要做一番调研和测试，本文便是介绍官方的一个 es 压测工具 esrally，希望能为大家带来帮助。

20481 0 4

来自：检索分析服务 Elasticsearch版版块

狸奴算君

|

2天前

|

数据采集人工智能 JSON

|

博文

给大模型“开小灶”：一文读懂微调原理与实战，让你的AI更懂你

本文深入浅出讲解大模型微调：为何需“开小灶”？详解全量微调、LoRA（装插件）、Prompt Tuning（学咒语）及RLHF等主流方法；手把手演示LoRA三步实践——数据准备、配置训练、测试部署；并提供效果评估与低门槛工具推荐。助力开发者快速打造领域专属AI。（239字）

66 0 0

大模型玩家七七

|

3天前

|

数据库

|

博文

向量数据库实战：从建库到第一次翻车

向量数据库首次“建库成功”反而是最危险时刻——表面跑通，实则埋下隐患。真实挑战不在“能否检索”，而在“检出内容能否支撑正确决策”。数据规模扩大、类型变杂后，切分失当、chunk等价化、TopK抖动等问题集中爆发。翻车本质是知识组织问题，而非工具选型问题。

66 10 10

winx_19970108018

|

4天前

|

XML JSON API

|

博文

淘宝商品详情API（tb.item_get）

本文详解淘宝开放平台商品详情核心API（如item_get），涵盖对接流程、权限申请、请求规范、参数说明及返回字段，并列举代购集运、选品分析、比价导购等典型应用场景，助力开发者合规高效获取商品数据。（239字）

66 3 3

蒋星熠Jaxonic

|

4月前

|

数据采集机器学习/深度学习人工智能

|

博文

反爬虫机制深度解析：从基础防御到高级对抗的完整技术实战

本文系统阐述了反爬虫技术的演进与实践，涵盖基础IP限制、User-Agent检测，到验证码、行为分析及AI智能识别等多层防御体系，结合代码实例与架构图，全面解析爬虫攻防博弈，并展望智能化、合规化的发展趋势。

1224 0 0

Deephub

|

10月前

|

存储人工智能自然语言处理

|

博文

LangChain RAG入门教程：构建基于私有文档的智能问答助手

本文介绍如何利用检索增强生成（RAG）技术与LangChain框架构建基于特定文档集合的AI问答系统。通过结合检索系统和生成机制，RAG能有效降低传统语言模型的知识局限与幻觉问题，提升回答准确性。文章详细展示了从环境配置、知识库构建到系统集成的全流程，并提供优化策略以改进检索与响应质量。此技术适用于专业领域信息检索与生成，为定制化AI应用奠定了基础。

3286 5 6

阿里云大数据Al技术

|

数据采集机器学习/深度学习人工智能

|

博文

云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进

本文根据2024云栖大会实录整理而成，演讲信息如下：演讲人：林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人；黄博远｜阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人活动：2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场

2936 1 1

来自：人工智能平台PAI 版块

winx_19970108018

|

3天前

|

机器学习/深度学习供应链监控

|

博文

淘宝图片搜索API（taobao.item_search_img）

淘宝图片搜索API是阿里基于深度学习的视觉检索服务，支持以图搜同款/相似商品，毫秒级响应、高准确率。提供商品、交易、店铺等结构化数据，适配选品、同款监控、智能上架等场景，合规高效，助力电商数字化升级。（239字）

65 7 7

小小张说故事

|

5天前

|

存储分布式计算数据挖掘

|

博文

NumPy技术文档：科学计算的基石

本教程系统讲解NumPy核心知识：从环境搭建与Hello World入门，到ndarray、广播机制、向量化运算三大核心概念；通过销售额分析实战，涵盖统计计算、移动平均、异常检测等典型应用；并总结最佳实践、常见陷阱及进阶方向，助你高效掌握科学计算基石。

65 5 5

你的橙来啦

|

8天前

|

人工智能边缘计算调度

|

博文

智启未来：2026年，AI从“技术工具”到“共生文明”的跨代元年

2026年，“会基础设施”范式跃迁开启人类与非生物智能共治的“第二个起源”。AI从工具升维为文明要素：技术迈入工业级确定性应用，能力下沉至个体；产业全链重构，制度启动动态合规、权责厘清与红利再分配；文明契约转向生态共生、意义赋予与思维共同体培育——未来在制度与共识之中。

108 1 1

探索云世界

|

3月前

|

SQL 分布式计算大数据

|

博文

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

本系列文章将围绕东南亚头部科技集团的真实迁移历程展开，逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第八篇，MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破。注：客户背景为东南亚头部科技集团，文中用 GoTerra 表示。

392 38 38

来自：大数据计算 MaxCompute 版块

你的橙来啦

|

3天前

|

人工智能自动驾驶算法

|

博文

智能体来了！2026 AI 元年：在全新赛道上重构人类生产力边界

2026年被定义为“智能体元年”：AI从“能说”跃升为“能干”，实现自主决策、跨系统协作与具身执行。产业迎来智能体市场、数字劳动力网络和可信治理三大爆发点，人类角色转向目标设定与智能体调度。技术终指向人的升华。（239字）

64 3 3

null_is_null

|

6月前

|

数据处理开发工具开发者

|

博文

requirement.txt 管理python包依赖

在 Python 项目中，`requirements.txt` 用于记录依赖库及其版本，便于环境复现。本文介绍了多种生成该文件的方法：基础方法使用 `pip freeze`，进阶方法使用 `pipreqs`，专业方法使用 `poetry` 或 `pipenv`，以及手动维护方式。每种方法适用不同场景，涵盖从简单导出到复杂依赖管理，并提供常见问题的解决方案，帮助开发者高效生成精准的依赖列表，确保项目环境一致性。

1892 4 4

来自：人工智能平台PAI 版块

长梦

|

存储数据库索引

|

博文

Python新手常见问题一：列表、元组、集合、字典区别是什么？

本文针对Python编程新手常遇到的问题，详细阐述了列表（List）、元组（Tuple）、集合（Set）和字典（Dictionary）这四种数据结构的核心区别。列表是一种有序且可变的数据序列，允许元素重复；元组同样有序但不可变，其内容一旦创建就不能修改；集合是无序、不重复的元素集，强调唯一性，主要用于数学意义上的集合操作；而字典则是键值对的映射容器，其中键必须唯一，而值可以任意，它提供了一种通过键查找对应值的有效方式。通过对这些基本概念和特性的对比讲解，旨在帮助初学者更好地理解并运用这些数据类型来解决实际编程问题。

3318 1 1

小窗幽记机器学习

|

机器学习/深度学习开发工具 git

|

博文

开发专题 | 1 ：下载 huggingface 上模型的正确姿势

本文主要介绍如何以正确的方式下载 huggingface 上的模型

14982 4 8

ChenAI_TGF

|

2月前

|

机器学习/深度学习算法 PyTorch

|

博文

机器学习：模型训练术语大扫盲——别再混淆Step、Epoch和Iter等

本文用通俗类比讲清机器学习核心术语：Epoch是完整训练一轮，Batch Size是每次训练的数据量，Step/Iter是每批数据处理及参数更新的最小单位。结合学习率、损失值、过拟合等概念，帮你快速掌握训练过程关键要点，打通术语任督二脉。（238字）

604 9 9

kng32f3vbngrm

|

缓存 Linux 编译器

|

博文

Linux（CentOS7.5）安装部署 Python3.6（超详细！包含 Yum 源配置！）

该指南介绍了在Linux系统中配置Yum源和安装Python3的步骤。首先，通过`yum install`和`wget`命令更新和备份Yum源，并从阿里云获取CentOS和EPEL的repo文件。接着，清理和更新Yum缓存。然后，下载Python3源代码包，推荐使用阿里云镜像加速。解压后，安装必要的依赖，如gcc。在配置和编译Python3时，可能需要解决缺少C编译器的问题。完成安装后，创建Python3和pip3的软链接，并更新环境变量。最后，验证Python3安装成功，并可选地升级pip和配置pip源以提高包下载速度。

4301 0 0

iOS开发欢乐使者

|

移动开发安全图形学

|

博文

如何绕过某讯手游保护系统并从内存中获取Unity3D引擎的Dll文件

通过动态分析了它的保护方法，通过改源码刷机的方法绕过了它的保护方案（也可通过hook libc.so中的execve函数绕过保护），接下来就可以直接使用GameGuardain这个神奇附加上去进行各种骚操作了。这里主要讲一下如何去从内存中获取Assembly-CSharp.dll 和 Assembly-CSharp-fristpass.dll文件。

396 0 0

阿里云大数据Al技术

|

存储机器学习/深度学习分布式计算

|

博文

【DSW Gallery】COMMON_IO使用指南

COMMON_IO模块提供了TableReader和TableWriter两个接口，使用TableReader可以读取ODPS Table中的数据，使用TableWriter可以将数据写入ODPS Table。

5023 0 0

来自：人工智能平台PAI 版块

北京昕辰清虹

|

5天前

|

运维 Linux 定位技术

|

博文

别只看 QPS：一级 NTP 时间服务器在工程现场到底靠什么兜底

本文以NTS-H-442002为例，剖析企业级Stratum 1时间服务器的关键设计：x86高并发架构保障稳定授时；GPS/北斗+蜂窝多源冗余提升可用性；高稳OCXO实现失锁后72小时<1ms守时精度；1PPS/10MHz/TOD物理接口满足硬同步需求；双电源、热备、加密与运维能力确保长期可靠。

62 4 4

墨祤

|

10天前

|

存储人工智能分布式计算

|

博文

阿里云 OpenLake：AI 时代的全模态、多引擎、一体化解决方案深度解析

阿里云徐晟详解OpenLake：构建全模态、多引擎、一体化智能数据体系，融合大数据与AI，支持湖仓一体、Agentic Data及AI搜索，助力企业降本增效、加速AI落地。（239字）

141 1 1

ChenAI_TGF

|

21天前

|

数据采集人工智能文字识别

|

博文

PDF 转 Markdown 神器：MinerU 2.5 (1.2B) 部署全攻略

MinerU是由OpenDataLab推出的开源PDF解析工具，支持精准布局分析、公式识别与表格提取。本文详解其2.5-2509-1.2B版本在Linux下的部署流程，涵盖环境搭建、模型下载、核心配置及实战应用，助你高效处理复杂PDF文档，提升AI数据清洗效率。

410 3 7

Echo_Wish

|

10月前

|

传感器人工智能物联网

本文分享10万级文档RAG系统从Demo到生产的实战经验，剖析检索慢、召回率低、部署复杂三大痛点，涵盖文档切分、Embedding选型、向量库优化、重排序与生成约束等关键步骤，并提供可落地的工程方案与评估方法，助力构建高效、稳定的企业级RAG系统。

199 3 3

想飞的雪糕

|

机器学习/深度学习人工智能自然语言处理

|

博文

前端大模型入门（三）：编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入

本文介绍了大规模语言模型（LLM）中的两个核心概念：Tokenizer和Embedding。Tokenizer将文本转换为模型可处理的数字ID，而Embedding则将这些ID转化为能捕捉语义关系的稠密向量。文章通过具体示例和代码展示了两者的实现方法，帮助读者理解其基本原理和应用场景。

4606 1 1

麦老师

阿里云PAI推出PAIFuser框架，专为视频生成模型设计，通过模型并行、量化优化、稀疏运算等技术，显著提升DiT架构的训练与推理效率。实测显示，推理耗时最高降低82.96%，训练时间减少28.13%，助力高效低成本AI视频生成。

411 22 22

liuyunshengsir

|

12月前

|

分布式计算并行计算调度

|

本文从Java基础、面向对象、多线程与并发等方面详细解析常见面试题及答案，并结合实际应用帮助理解。内容涵盖基本数据类型、自动装箱拆箱、String类区别，面向对象三大特性（封装、继承、多态），线程创建与安全问题解决方法，以及集合框架如ArrayList与LinkedList的对比和HashMap工作原理。适合准备面试或深入学习Java的开发者参考。附代码获取链接：[点此下载](https://pan.quark.cn/s/14fcf913bae6)。

4503 49 54

五维空间s

|

应用服务中间件 Linux 网络安全

|

博文

nginx安装部署ssl证书，同时支持http与https方式访问

为了使HTTP服务支持HTTPS访问，需生成并安装SSL证书，并确保Nginx支持SSL模块。首先，在`/usr/local/nginx`目录下生成RSA密钥、证书申请文件及自签名证书。接着，确认Nginx已安装SSL模块，若未安装则重新编译Nginx加入该模块。最后，编辑`nginx.conf`配置文件，启用并配置HTTPS服务器部分，指定证书路径和监听端口（如20000），保存后重启Nginx完成部署。

4477 8 10

郑小健

|

机器学习/深度学习并行计算 PyTorch

|

博文

ONNX 优化技巧：加速模型推理

【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式，用于表示机器学习模型，使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎，旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。

7331 4 6

三分钟热度的鱼

|

消息中间件关系型数据库 MySQL

|

博文

实时计算 Flink版操作报错合集之整库同步mysql到starRock提交任务异常，该如何处理

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

677 1 1

来自：实时计算 Flink 版块

kng32f3vbngrm

|

SQL 存储 Java

|

博文

Hive 特殊的数据类型 Array、Map、Struct

在Hive中，`Array`、`Map`和`Struct`是三种特殊的数据类型。`Array`用于存储相同类型的列表，如`select array(1, "1", 2, 3, 4, 5)`会产生一个整数数组。`Map`是键值对集合，键值类型需一致，如`select map(1, 2, 3, "4")`会产生一个整数到整数的映射。`Struct`表示结构体，有固定数量和类型的字段，如`select struct(1, 2, 3, 4)`创建一个无名结构体。这些类型支持嵌套使用，允许更复杂的结构数据存储。例如，可以创建一个包含用户结构体的数组来存储多用户信息

3236 0 0

cduukj

|

4天前

|

人工智能搜索推荐数据挖掘

|

博文

深度 AI 学术是怎样学习百度学术、谷歌学术的先进经验的？

深度AI学术融合百度学术与Google Scholar优势，聚合2.8亿文献，支持中英文语义检索、AI自动摘要、引用追踪及趋势分析；创新提供批量翻译、自定义维度解析与学术报告生成，打造智能科研助手。（239字）

58 7 8

来自：智能搜索推荐版块

安得卫士

|

5天前

|

存储安全数据安全/隐私保护

|

博文

企业硬盘加密软件选型指南：DiskCrypt与BitLocker功能、性能与应用场景全对比

本文对比国产安得卫士DiskCrypt与微软BitLocker两款硬盘加密软件，在加密深度（扇区级vs分区级）、认证机制、密钥管理、应急恢复、国产化兼容及集中管控等维度展开分析，助力用户按安全等级、合规要求与使用场景科学选型。（239字）

58 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

GLM-4V-9B 视觉多模态模型本地部署教程【保姆级教程】

如何将Kindle电子书下载到电脑：技术流程与操作解析

阿里云PAI-部署Qwen2-VL-72B

不是吧？这么好用的开源标注工具，竟然还有人不知道…

3D目标检测数据集 KITTI（标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图）

【最佳实践】esrally：Elasticsearch 官方压测工具及运用详解

给大模型“开小灶”：一文读懂微调原理与实战，让你的AI更懂你

向量数据库实战：从建库到第一次翻车

淘宝商品详情API（tb.item_get）

反爬虫机制深度解析：从基础防御到高级对抗的完整技术实战

LangChain RAG入门教程：构建基于私有文档的智能问答助手

云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进

淘宝图片搜索API（taobao.item_search_img）

NumPy技术文档：科学计算的基石

智启未来：2026年，AI从“技术工具”到“共生文明”的跨代元年

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

智能体来了！2026 AI 元年：在全新赛道上重构人类生产力边界

requirement.txt 管理python包依赖

Python新手常见问题一：列表、元组、集合、字典区别是什么？

开发专题 | 1 ：下载 huggingface 上模型的正确姿势

机器学习：模型训练术语大扫盲——别再混淆Step、Epoch和Iter等

Linux（CentOS7.5） 安装部署 Python3.6（超详细！包含 Yum 源配置！）

如何绕过某讯手游保护系统并从内存中获取Unity3D引擎的Dll文件

【DSW Gallery】COMMON_IO使用指南

别只看 QPS：一级 NTP 时间服务器在工程现场到底靠什么兜底

阿里云 OpenLake：AI 时代的全模态、多引擎、一体化解决方案深度解析

PDF 转 Markdown 神器：MinerU 2.5 (1.2B) 部署全攻略

智能鞋：从脚下开始的科技革命

umount卸载根目录，xfs_repair修复根分区

向量数据库实战：从“看起来能用”到“真的能用”，中间隔着一堆坑

不懂向量数据库？一文讲透其原理与应用场景

10 万文档 RAG 落地实战：从 Demo 到生产，我踩过的所有坑

前端大模型入门（三）：编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入

xfs_repair命令xfs文件系统修复工具

数字孪生核心技术揭秘（三）：倾斜摄影

StarRocks + Paimon： 构建 Lakehouse Native 数据引擎

PAIFuser：面向图像视频的训练推理加速框架

基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS

推荐2款免费开源的标注工具，支持大模型对话标注

Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程

若无 DNS 与代理 IP，我们的上网体验会崩塌吗？

RAG 的失败，大多在“切文档”那一刻就已经注定

大模型产生幻觉的原因，如何解决？

2025 最新史上最全 Java 面试题独家整理带详细答案及解析

nginx安装部署ssl证书，同时支持http与https方式访问

ONNX 优化技巧：加速模型推理

实时计算 Flink版操作报错合集之整库同步mysql到starRock提交任务异常，该如何处理

Hive 特殊的数据类型 Array、Map、Struct

深度 AI 学术是怎样学习百度学术、谷歌学术的先进经验的？

企业硬盘加密软件选型指南：DiskCrypt与BitLocker功能、性能与应用场景全对比

大数据与机器学习

活跃用户

相关产品

Linux（CentOS7.5）安装部署 Python3.6（超详细！包含 Yum 源配置！）

StarRocks + Paimon：构建 Lakehouse Native 数据引擎