大数据与机器学习-博文-第19页-阿里云开发者社区

麦老师

|

Linux Shell

|

博文

umount卸载根目录，xfs_repair修复根分区

3876 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

流计算 SQL HIVE

|

博文

小红书如何实现高效推荐？解密背后的大数据计算平台架构

小红书作为生活分享类社区，目前有8500万用户，年同比增长为300%，大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一，本文主要分享在推荐业务场景中小红书的实时计算应用。

9862 0 0

来自：实时计算 Flink 版块

付空

|

新零售搜索推荐调度

|

博文

1.背景介绍搜索引擎的出现大大降低了人们寻找信息的难度，已经深入到生活与工作的方方面面，简单列举几个应用如下：互联网搜索，如谷歌，百度等；垂直搜索，如淘宝、天猫的商品搜索；站内搜索，各个内容网站提供的站内搜索服务；企业内部搜索，员工查询企业内部信息；广告投放，根据投放上下文检索出对应的广告主和广告内容；搜索引擎的关键是让用户找到其所需信息，其整体架构如下：从图示可知，一个搜索引擎从大的方面来看主要包括两部分，一部分是提供在线的搜索服务，一部分要把原始数据已离线的方式建立索引，建立索引是信息可搜索的前提。

18567 160 162

来自：实时计算 Flink 版块

曾xiaoyi

|

算法搜索推荐前端开发

|

博文

搜索双链路实时计算体系@双11实战

该文章来自阿里巴巴技术协会（ATA）精选集 0. 前言何为双链路实时计算体系？微观实时计算链路 a) 最细粒度商品/店铺/用户数据的实时 b) 底层模型的实时宏观实时计算链路相比微观实时，宏观实时的对象粒度更粗，更上层 a) 以实时效果为目标，基于bandit learning的实

16433 2 3

来自：智能搜索推荐版块

winx_19970108018

|

11天前

|

数据采集存储 API

|

博文

阐述：淘宝 API 商品列表数据采集实战经验

本文分享淘宝商品列表API（taobao.items.search）合规采集实战经验，涵盖接口要点、签名加密避坑、限流应对及数据清洗技巧，强调“技术守规、艺术筛数、算术控本”，助力高效低成本获取高质量商品数据。（239字）

100 1 1

游客2a5dbvimnmi46

|

12天前

|

人工智能运维决策智能

|

博文

从实践探讨不同智能体的应用场景

2026年5月15日14:00，CXOUNION联合艺赛旗举办线上活动，聚焦OpenClaw、Hermes、Agentic Automation三类主流AI智能体，邀请企业CIO与一线实践者，从个人提效与企业落地双视角，解析适用场景、选型逻辑与发展路径，助力智能体规模化、规范化应用。（239字）

117 1 1

离原

|

18天前

|

SQL 人工智能监控

|

博文

五年数据开发复盘：从数仓建设到 AI 产品化的阶段性思考

五年数据开发复盘：从数仓建设到AI产品化。作者深耕BI、SaaS数仓、数据血缘与建模，提出“以数仓为根基、实体建模为核心、工程稳定性为底座”，强调业务理解重于工具使用。面对AI浪潮，主张聚焦提示词工程、RAG、实体识别等AI工程化落地，而非算法底层——数据开发正演进为连接业务、数据、工程与AI的复合型角色。

134 3 3

pai_rec_coder

|

24天前

|

分布式计算 MaxCompute 流计算

|

博文

PAI-FeatureStore特征平台的相关问答

本栏目解答FeatureStore常见问题：实时视图时间戳支持BIGINT/TIMESTAMP；ODPS同步需字段完全匹配；Item特征表由关联视图确定；离线视图禁止写入；实时数据查询延迟通常仅数秒。（238字）

162 1 1

来自：人工智能平台PAI 版块

winx_19970108018

|

2月前

|

数据采集 JSON 供应链

|

博文

1688商品详情数据一键获取，item_get API接口讲解

本文分享1688商品详情API（offerDetail.get）实战经验：摒弃爬虫，依托官方接口实现合规、稳定、高效的数据采集。涵盖接入流程、关键参数、返回字段解析及避坑要点，助力企业快速落地电商供应链数据建设。（239字）

527 2 2

winx_19970108018

|

2月前

|

监控数据挖掘 API

|

博文

从踩坑到高效落地：淘宝商品详情API的实操心得

淘宝商品详情API提供全维度商品数据，含基础信息、详情页HTML、SKU、价格、销量等，支持比价、代购、数据分析及内容电商等场景，涵盖item.get、item.get_pro等核心接口，接入便捷高效。

364 4 5

墨祤

|

3月前

|

存储分布式计算 OLAP

|

博文

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

人力家资深数据工程师石玉阳（Thorne），Flink-CDC Contributor，分享其公司湖仓一体实践：以Paimon为数据基座、StarRocks为OLAP引擎、Flink+Fluss实现湖流融合，打通离线/实时/增量计算，支持多模态与DATA+AI演进，构建开放、统一、可持续的大数据架构。（239字）

350 2 3

来自：开源大数据平台 E-MapReduce 版块

大模型玩家七七

|

3月前

|

数据库 C++

|

博文

向量维度、距离函数，如何影响召回结果

本文揭示向量检索效果不佳的根源常被误判：问题不在embedding模型本身，而在于被忽视的底层选择——向量维度与距离函数。二者共同定义了“相似性”的本质，而非仅调节精度。维度决定语义表达自由度与错误类型，距离函数（L2/Cosine/Dot）则确立“何为相近”的世界观。二者强耦合，直接塑造召回空间。调参前，先问：你更怕漏召，还是误召？

240 6 6

小小张说故事

|

3月前

|

数据采集 XML 前端开发

|

博文

BeautifulSoup：Python网页解析的优雅利器

BeautifulSoup是Python最易用的HTML/XML解析库，以超强容错性与人性化API著称。它能将混乱网页转为结构化树，支持CSS选择器、多种解析器（推荐lxml），无需正则即可快速提取数据，是中小型爬虫、教学及原型开发首选工具。（239字）

313 1 1

狸奴算君

|

3月前

|

人工智能关系型数据库数据库

|

博文

为什么传统数据库不够用，向量数据库如何补位？

本文通俗解析向量数据库：它让AI能按“语义相似性”而非关键词检索文本、图像等非结构化数据，是RAG技术的“记忆中枢”。详解嵌入原理、ANN索引（如HNSW）、实战搭建步骤及效果评估方法，强调其与传统数据库协同而非替代的关系。（239字）

344 1 2

小小张说故事

|

3月前

|

数据可视化数据挖掘 API

|

博文

Matplotlib 入门指南：让数据"开口说话"的魔法库

本教程系统讲解Matplotlib数据可视化：从环境搭建、核心概念（Figure/Axes/Artist）到实战分析电影评分趋势；涵盖中文字体配置、常见陷阱规避及最佳实践，并指引Seaborn、Plotly等进阶方向，助你高效掌握Python可视化核心技能。（239字）

503 9 9

游客vv4u4wyick5ti

|

4月前

|

存储 SQL 人工智能

|

博文

数据语义层 vs 宽表模式：哪种架构更适合 AI 时代的数据分析？

用户零等待指标交付，逻辑变更分钟级生效，无需 ETL；100%一致口径，所有人与 AI 通过同一语义层访问数据；无缝对接 AI，语义层为 AI 提供标准化查询 API。

484 1 1

大模型玩家七七

|

4月前

|

存储安全 API

|

博文

隐私合规红线不能碰：大模型微调3大重灾区防护手册

本文聚焦大模型微调中训练数据、中间产物与部署链路三大隐私泄露重灾区，剖析90%开发者易踩的技术陷阱，从分层脱敏、差分隐私到权限管控，提供全链路可落地的防护方案，并结合性能与安全双重验证，助力企业实现合规与效能双赢。

494 0 0

大模型玩家七七

|

4月前

|

数据采集自然语言处理搜索推荐

|

博文

大模型从“瞎聊”到“干活”：指令微调核心逻辑全拆解

本文深入浅出解析大模型指令微调核心技术，从“能聊”到“会干”的关键跃迁。通过“教小孩做事”类比，拆解指令微调原理，详解数据格式、质量与策略三要素，提供16G显卡可跑的四步实操流程，并结合效果评估与未来趋势，助力新手快速掌握让大模型精准执行任务的核心方法。

506 3 3

winx_19970108018

|

4月前

|

JSON 监控 API

|

博文

京东API：通过商品ID获取京东商品详情数据指南

京东商品详情API（JD.item_get）支持通过商品ID获取标题、价格、库存、品牌、分类、销量等核心信息，广泛用于电商分析、比价工具与监控系统。需传入app_key、item_id、timestamp等参数并生成签名，返回JSON格式数据，助力高效对接京东商品数据。

533 2 2

winx_19970108018

|

4月前

|

JSON 安全 JavaScript

|

博文

闲鱼商品列表API接口指南

本指南基于逆向分析，提供闲鱼商品列表数据获取的技术方案，适用于关键词、地区、价格等条件筛选。支持网页端GET与移动端POST请求，返回HTML或JSON格式数据，需注意登录态与参数编码，仅用于学习研究。

540 2 2

游客2hehlpp5ckvw4

|

5月前

|

JSON 前端开发 Java

|

博文

第六章 SpringMVC框架

Spring MVC核心组件包括DispatcherServlet、HandlerMapping、HandlerAdapter、Handler和ViewResolver，协同完成请求分发、处理与响应。其流程为：请求经DispatcherServlet分发，通过HandlerMapping定位处理器，由HandlerAdapter执行Handler，再经ViewResolver解析视图并渲染返回。此外，可通过拦截器实现登录校验等操作，结合@RestControllerAdvice和@ExceptionHandler统一处理异常，并使用@RequestMapping等注解简化开发。

323 0 0

游客dvcta5xqvznk2

|

5月前

|

Shell 测试技术 Apache

|

博文

Jmeter快速入门

本文介绍了Apache JMeter的下载、解压与运行方法，并指导用户进行中文语言设置及基本使用。通过添加线程组、HTTP取样器和监听器，快速完成性能测试配置，适合初学者入门学习。

225 0 0

游客yk75b7ese7oke

|

5月前

|

Java 大数据

|

博文

ArrayList扩容机制

本文深入解析ArrayList的add及扩容机制。通过源码分析，揭示其首次添加元素时默认扩容至10，后续每次扩容为原容量1.5倍的核心逻辑，并详解grow()方法如何通过位运算高效实现动态扩容，同时澄清length、length()、size()等易混淆概念。

326 0 0

游客hua3a7ejc2opu

|

5月前

|

机器学习/深度学习存储自然语言处理

|

博文

大模型基础概念术语解释

大语言模型（LLM）基于Transformer架构，通过海量文本训练，实现强大语言理解与生成。其核心为自注意力机制，结合Token化、位置编码与嵌入层，支持万亿级参数规模。参数增长带来涌现能力，如复杂推理与泛化性能。混合专家模型（MoE）提升效率，推动模型持续扩展。

782 0 0

winx_19970108018

|

5月前

|

数据采集数据挖掘 API

|

博文

1688店铺所有商品API使用指南

本文详解1688店铺商品API的使用，涵盖接口摘要、概述、Python请求示例及注意事项。通过该API可获取商品列表、详情等核心数据，适用于店铺管理、ERP系统与数据分析。结合代码演示，助开发者快速完成对接，实现高效数据采集与应用。（239字）

319 4 4

cduukj

|

5月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

深度ai学术-从全网文献搜索到免费文献AI解析

深度AI学术（scholar.aisciresgo.com）打通科研全流程：全网智能搜索、免费获取文献、AI深度解析与精准翻译，一站式解决“搜不到、下不了、读不完”难题，助力研究者高效创新，开启智能科研新范式。

733 1 1

来自：智能搜索推荐版块

Echo_Wish

|

6月前

|

弹性计算运维 API

|

博文

用错工具比没工具更可怕：Ansible vs Terraform 实战对比，用最接地气的方式讲清楚

723 22 22

灵杰开发者

|

6月前

|

存储 SQL 缓存

|

博文

Delta Join：为超大规模流处理实现计算与历史数据解耦

Delta Join（FLIP-486）是Flink流式Join的范式革新，通过将历史数据存储与计算解耦，实现按需查询外部存储（如Fluss、Paimon），避免状态无限增长。它解决了传统Join在高基数场景下的状态爆炸问题，显著降低资源消耗：状态减少50TB，成本降10倍，Checkpoint从小时级缩短至秒级，恢复速度提升87%。兼容标准SQL，自动优化转换，适用于海量数据实时关联场景，推动流处理迈向高效、稳定、可扩展的新阶段。

741 1 1

来自：实时计算 Flink 版块

探索云世界

|

6月前

|

人工智能分布式计算运维

|

博文

阿里云携手 MiniMax 构建云原生数仓最佳实践：大模型时代的 Data + AI 数据处理平台

MiniMax 是全球领先的通用人工智能公司，致力于推动AGI发展。依托自研多模态大模型，服务超200国1.57亿用户及5万企业客户。携手阿里云构建云原生数仓与Data+AI平台，实现数据高效处理、成本大幅降低，支撑全球业务高速迭代与AI创新落地。

1322 107 108

winx_19970108018

|

6月前

|

JSON API 数据格式

|

博文

小红书笔记详情API秘籍！轻松获取笔记数据

小红书笔记详情API是开放平台核心接口，用于获取指定笔记的标题、正文、互动数据及多媒体资源，支持内容分析与营销优化。2025年6月起启用v4版，新增视频解析与实时数据推送。需note_id和access_token参数，返回JSON格式数据。

753 5 5

遗忘的我们平平-28588

|

7月前

|

机器学习/深度学习传感器算法

|

博文

基于yolo8的深度学习室内火灾监测识别系统

本研究基于YOLO8算法构建室内火灾监测系统，利用计算机视觉技术实现火焰与烟雾的实时识别。相比传统传感器，该系统响应更快、精度更高，可有效提升火灾初期预警能力，保障生命财产安全，具有重要的应用价值与推广前景。

840 10 10

墨祤

|

9月前

|

存储缓存 Apache

|

博文

StarRocks+Paimon 落地阿里日志采集：万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台，致力于通过埋点、采集、计算构建流量数据闭环，助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战，平台采用Flink+Paimon+StarRocks技术方案，实现高吞吐写入与秒级查询，优化存储成本与扩展性，提升日志分析效率。

1300 1 1

来自：开源大数据平台 E-MapReduce 版块

武汉频琵

|

9月前

|

安全

|

博文

电脑进入bios关闭网卡的技巧

华硕电脑开机显示字符无法进入系统，提示“PXE-MOF:Exiting PXE ROM”，表明电脑正尝试从网卡启动。解决方法为进入BIOS关闭网卡启动功能。开机时连续按F2进入BIOS，切换至“Security”选项卡，找到“I/O Interface Security”设置，选择“LAN Network Interface”并设为“LOCKED”以禁用网卡启动，最后按F10保存退出即可。

1466 0 0

Deephub

|

10月前

|

存储人工智能自然语言处理

|

博文

AI代理内存消耗过大？9种优化策略对比分析

在AI代理系统中，多代理协作虽能提升整体准确性，但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加，内存消耗呈指数级增长，主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术，涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估，分析了每种技术的适用场景与局限性，为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。

727 4 4

小白学大数据

|

11月前

|

数据采集机器学习/深度学习 Web App开发

|

博文

Python爬虫如何应对贝壳网的IP封禁与人机验证？

1338 5 6

灵杰开发者

|

12月前

|

存储消息中间件 OLAP

|

博文

基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路

本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享，围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术，解决当前流批存储不统一、实时数据可见性差等痛点，实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率，降低了使用门槛与成本，并规划未来在集团内推广湖仓一体架构，探索更多技术创新场景。

1936 3 6

来自：实时计算 Flink 版块

鲲志说

|

机器学习/深度学习人工智能编译器

|

博文

本地化部署DeepSeek-R1蒸馏大模型：基于飞桨PaddleNLP 3.0的实战指南

本文基于飞桨框架3.0，详细介绍了在Docker环境下部署DeepSeek-R1-Distill-Llama-8B蒸馏模型的全流程。飞桨3.0通过动静统一自动并行、训推一体设计等特性，显著优化大模型的推理性能与资源利用效率。实战中，借助INT8量化和自动化工具，模型在8卡A100上仅需60GB显存即可运行，推理耗时约2.8-3.2秒，吞吐率达10-12 tokens/s。本文为国产大模型的高效本地部署提供了工程参考，适配多场景需求。

801 2 2

奔跑的数据

|

数据采集存储数据可视化

|

博文

分布式爬虫框架Scrapy-Redis实战指南

本文介绍如何使用Scrapy-Redis构建分布式爬虫系统，采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略，实现高效数据抓取。结合价格动态趋势分析，助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储，提供完整的技术路线图与代码示例。

1727 0 1

wxchyy-39337

|

机器学习/深度学习人工智能算法

|

博文

强化学习：Gym的库的实践——小车上山(包含强化学习基础概念，环境配置国内镜像加速)——手把手教你入门强化学习（一）

本文开启“手把手教你入门强化学习”专栏，介绍强化学习基础概念及实践。强化学习通过智能体与环境交互，学习最优策略以最大化累积奖励，适用于复杂动态决策问题。文章讲解智能体、环境等核心概念，并使用Gym库进行案例实操，如CartPole和MountainCar环境的代码实现。最后预告下期将深入马尔科夫决策过程（MDP）。适合初学者系统了解强化学习并动手实践。创作不易，欢迎关注、点赞与收藏！

1818 4 5

来自：人工智能平台PAI 版块

灵杰开发者

|

存储运维监控

|

博文

阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享，围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化，以及基于Paimon的湖仓方案优势。通过分层设计与技术优化，实现业务交付周期缩短30%以上，资源开销降低40%，并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动，助力企业探索实时计算与湖仓一体化解决方案。

1437 3 4

来自：实时计算 Flink 版块

winx_19970108018

|

自然语言处理数据挖掘 API

|

博文

淘宝直播间弹幕 API 接口（淘宝 API 系列）

淘宝直播间弹幕API助力电商直播数据分析与优化。通过实时获取弹幕信息（昵称、内容、时间、类型），商家可精准把握消费者需求，优化直播内容；开发者可构建数据分析工具和智能客服系统。接口采用WebSocket协议，支持全双工通信，确保数据实时性。请求需包含直播间ID（room_id），并遵循平台使用规范。示例代码展示了Python调用方法，需安装`websocket-client`库并处理重连与异常。

1103 6 6

技术内容小助手

|

自然语言处理 Kubernetes 异构计算

|

博文

推理降本与提升资源效率的实践

本课程从业务角度探讨大模型推理部署及资源利用率提升。首先分析大模型与GPU发展趋势，包括模型开源、规模增长及多模态能力增强；其次介绍高效部署大模型推理业务的步骤，涵盖业务场景选择、架构优化及显存规划；接着讲解如何通过DeepCPU-LLM框架和DeepNCCL通讯库优化推理效率；最后探讨通过KuberGPU实现细粒度GPU资源管理，提升整体资源利用率，降低推理成本。

1233 11 11

Echo_Wish

|

人工智能自然语言处理搜索推荐

|

博文

AI在教育中的潜力与挑战：开启智慧教育的新时代

1556 19 19

游客dnnykpmxhck3i

|

人工智能自然语言处理算法

|

博文

AI时代的企业内训全景图：从案例到实战

作为一名扎根在HR培训领域多年的“老兵”，我越来越清晰地感受到，企业内训的本质其实是为企业持续“造血”。无论是基础岗的新人培训、技能岗的操作规范培训，还是面向技术中坚力量的高阶技术研讨，抑或是管理层的战略思维提升课，内训的价值都是在帮助企业内部提升能力水平，进而提高组织生产力，减少对外部资源的依赖。更为重要的是，在当前AI、大模型、Embodied Intelligence等新兴技术快速迭代的背景下，企业必须不断为人才升级赋能，才能在市场竞争中保持领先。

2008 13 14

来自：人工智能平台PAI 版块

墨城coding

|

机器学习/深度学习计算机视觉

|

博文

一文详解残差网络

残差网络（ResNet）源于2016年的论文《Deep Residual Learning for Image Recognition》，旨在解决深层网络中的梯度消失和爆炸问题。通过引入残差块，即在网络中添加跳跃连接，使得信息可以直接跨过多层传递，从而有效解决了网络加深导致的训练困难。ResNet不仅显著提高了模型性能，还促进了深度学习领域的发展。

2880 3 3

扬流

|

存储人工智能分布式计算

|

博文

云栖实录 | 阿里云 OpenLake 解决方案重磅发布：多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 OpenLake 解决方案重磅发布，构建大数据、搜索、AI 一体化的能力体系，实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发，助力企业基于数据资产构筑竞争力。

1787 10 10

来自：开源大数据平台 E-MapReduce 版块

BetterBench

|

机器学习/深度学习算法大数据

|

博文

【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛选题分析

2024“华为杯”数学建模竞赛，对ABCDEF每个题进行详细的分析，涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题，解析了问题类型、专业和技能的需要。

5637 22 43

guoweish

|

数据可视化图形学 UED

|

博文

只需四步，轻松开发三维模型Web应用

为了让用户更方便地应用三维模型，阿里云DataV提供了一套完整的三维模型Web模型开发方案，包括三维模型托管、应用开发、交互开发、应用分发等完整功能。只需69.3元/年，就能体验三维模型Web应用开发功能！

1248 9 9

来自：数据可视化DataV 版块

奔跑的数据

|

数据采集 Web App开发测试技术

|

博文

使用Selenium调试Edge浏览器的常见问题与解决方案

在互联网数据采集领域，Selenium常用于自动化网页爬取。针对使用Edge浏览器时遇到的启动远程调试失败、访问受限及代理IP设置等问题，本文提供了解决方案。通过特定命令启动Edge的远程调试模式，并利用Python脚本配合Selenium库，可实现代理IP、User-Agent的设定及Cookie管理等高级功能，有效提升爬虫稳定性和隐蔽性。遵循步骤配置后，即可顺畅执行自动化测试任务。

3460 1 1

wusp1994

|

机器学习/深度学习自然语言处理数据可视化

|

博文

文本挖掘与可视化：生成个性化词云的Python实践【7个案例】

词云是文本数据可视化的工具，显示单词频率，直观、美观，适用于快速展示文本关键信息。 - 用途包括关键词展示、数据探索、报告演示、情感分析和教育。 - 使用`wordcloud`和`matplotlib`库生成词云，`wordcloud`负责生成，`matplotlib`负责显示。 - 示例代码展示了从简单词云到基于蒙版、颜色和关键词权重的复杂词云生成。 - 案例覆盖了中文分词（使用`jieba`库）、自定义颜色和关键词权重的词云。 - 代码示例包括读取文本、分词、设置词云参数、显示和保存图像。

2753 1 1

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

umount卸载根目录，xfs_repair修复根分区

小红书如何实现高效推荐？解密背后的大数据计算平台架构

通过Flink实时构建搜索引擎的索引

搜索双链路实时计算体系@双11实战

阐述：淘宝 API 商品列表数据采集实战经验

从实践探讨不同智能体的应用场景

五年数据开发复盘：从数仓建设到 AI 产品化的阶段性思考

PAI-FeatureStore特征平台的相关问答

1688商品详情数据一键获取，item_get API接口讲解

从踩坑到高效落地：淘宝商品详情API的实操心得

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

向量维度、距离函数，如何影响召回结果

BeautifulSoup：Python网页解析的优雅利器

为什么传统数据库不够用，向量数据库如何补位？

Matplotlib 入门指南：让数据"开口说话"的魔法库

数据语义层 vs 宽表模式：哪种架构更适合 AI 时代的数据分析？

隐私合规红线不能碰：大模型微调3大重灾区防护手册

大模型从“瞎聊”到“干活”：指令微调核心逻辑全拆解

京东API：通过商品ID获取京东商品详情数据指南

闲鱼商品列表API接口指南

第六章 SpringMVC框架

Jmeter快速入门

ArrayList扩容机制

大模型基础概念术语解释

1688店铺所有商品API使用指南

深度ai学术-从全网文献搜索到免费文献AI解析

用错工具比没工具更可怕：Ansible vs Terraform 实战对比，用最接地气的方式讲清楚

Delta Join：为超大规模流处理实现计算与历史数据解耦

阿里云携手 MiniMax 构建云原生数仓最佳实践：大模型时代的 Data + AI 数据处理平台

小红书笔记详情API秘籍！轻松获取笔记数据

基于yolo8的深度学习室内火灾监测识别系统

StarRocks+Paimon 落地阿里日志采集：万亿级实时数据秒级查询

电脑进入bios关闭网卡的技巧

AI代理内存消耗过大？9种优化策略对比分析

Python爬虫如何应对贝壳网的IP封禁与人机验证？

基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路

本地化部署DeepSeek-R1蒸馏大模型：基于飞桨PaddleNLP 3.0的实战指南

分布式爬虫框架Scrapy-Redis实战指南

强化学习：Gym的库的实践——小车上山(包含强化学习基础概念，环境配置国内镜像加速)——手把手教你入门强化学习（一）

阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

淘宝直播间弹幕 API 接口（淘宝 API 系列）

推理降本与提升资源效率的实践

AI在教育中的潜力与挑战：开启智慧教育的新时代

AI时代的企业内训全景图：从案例到实战

一文详解残差网络

云栖实录 | 阿里云 OpenLake 解决方案重磅发布：多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析

只需四步，轻松开发三维模型Web应用

使用Selenium调试Edge浏览器的常见问题与解决方案

文本挖掘与可视化：生成个性化词云的Python实践【7个案例】

大数据与机器学习

活跃用户

相关产品

【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛选题分析