大数据与机器学习-博文-第31页-阿里云开发者社区

墨城coding

|

自然语言处理算法搜索推荐

|

博文

NLTK模块使用详解

NLTK（Natural Language Toolkit）是基于Python的自然语言处理工具集，提供了丰富的功能和语料库。本文详细介绍了NLTK的安装、基本功能、语料库加载、词频统计、停用词去除、分词分句、词干提取、词形还原、词性标注以及WordNet的使用方法。通过示例代码，帮助读者快速掌握NLTK的核心功能。

3331 1 1

扬流

|

SQL 存储缓存

|

博文

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本，该版本不仅基于开源 StarRocks 进行了全面优化，实现了存储与计算解耦架构，还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

1564 62 62

来自：开源大数据平台 E-MapReduce 版块

郑小健

|

数据可视化 IDE 数据挖掘

|

博文

Python助您洞察先机：2024年A股市场数据抓取与分析实战

【10月更文挑战第1天】随着2024年中国股市的强劲表现，投资者们对于如何高效获取并分析相关金融数据的需求日益增长。本文旨在介绍如何利用Python这一强大的编程语言来抓取最新的A股交易数据，并通过数据分析技术为个人投资决策提供支持。

2158 2 2

灵杰开发者

|

分布式计算大数据 Serverless

|

博文

云栖实录 | 开源大数据全面升级：Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

在2024云栖大会开源大数据专场上，阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash，该引擎100%兼容Apache Flink标准，性能提升5-10倍，助力企业降本增效。此外，EMR Serverless Spark产品启动商业化，提供全托管Serverless服务，性能提升300%，并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行，欢迎报名参加。

1041 6 6

来自：实时计算 Flink 版块

蚂蚁数据智能技术

|

人工智能数据可视化前端开发

|

博文

DB-GPT v0.6.0 版本更新，发布六大核心新特性！

DB-GPT v0.6.0 版本已发布，这是一个开源的AI原生数据应用开发框架，带来了多项新特性，包括AWEL协议升级至2.0，支持复杂编排；改进的数据应用创建与生命周期管理，支持多模式构建；GraphRAG增强图社区摘要与混合检索，图索引成本降低50%；丰富的Agent Memory类型；支持Text2NLU与Text2GQL微调；GPT-Vis前端可视化升级。这些更新助力企业快速构建智能数据应用，推动数字化转型。

1126 3 3

来自：开源大数据平台 E-MapReduce 版块

华汇数据

|

存储运维监控

|

博文

服务器高效运维管理方案

智能运维作为保障业务连续性和提升系统性能的关键环节，其重要性日益凸显。服务器作为承载各类应用与数据的核心基础设施，其稳定性、安全性和性能直接关系到企业的业务运行效率和用户体验

1550 1 1

Deephub

|

存储缓存 PyTorch

|

博文

使用PyTorch从零构建Llama 3

本文将详细指导如何从零开始构建完整的Llama 3模型架构，并在自定义数据集上执行训练和推理。

700 1 1

hju6meadphitw

|

存储监控安全

|

博文

服务器安全：构建数字时代的坚固堡垒

在数字化时代,服务器安全至关重要,它直接影响企业业务连续性和客户数据保护。服务器遭受攻击或数据泄露将给企业带来巨大损失。服务器面临网络攻击、恶意软件、内部与物理威胁。关键防护措施包括严格访问控制、数据加密与备份、安全审计与监控、部署防火墙和入侵检测系统、及时安全更新及物理安全防护。最佳实践涵盖制定全面安全策略、采用先进技术、员工培训、定期安全评估与测试及建立应急响应团队。通过这些措施,企业能构建坚实的服务器安全防护体系。

1210 55 56

小空门123-30335

|

网络协议

|

博文

使用`http.server`模块搭建简单HTTP服务器

828 0 0

aliyun0925406400-41188

|

数据采集算法搜索推荐

|

博文

Python基于RFM模型和K-Means聚类算法进行航空公司客户价值分析

1262 0 0

来自：人工智能平台PAI 版块

AIGC小王子

|

分布式计算大数据数据处理

|

博文

「大数据」Kappa架构

**Kappa架构**聚焦于流处理，用单一处理层应对实时和批量数据，消除Lambda架构的双重系统。通过数据重放保证一致性，简化开发与维护，降低成本，提升灵活性。然而，资源消耗大，复杂查询处理不易。关键技术包括Apache Flink、Spark Streaming、Kafka、DynamoDB等，适合需实时批量数据处理的场景。随着流处理技术进步，其优势日益凸显。

1076 0 0

李麒麟

|

机器学习/深度学习 Python

|

博文

tanh函数

本文探讨了高等数学中的tanh函数，即双曲正切函数，其定义为 $\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$，导数为 $1 - \tanh^2(x)$。tanh函数广泛适用于各类场景，并在神经网络中有重要应用。提供的Python代码绘制了tanh函数及其导数的图像。

1724 1 1

kng32f3vbngrm

|

SQL HIVE

|

博文

【Hive SQL】字符串操作函数你真的会用吗？

本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项，而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置，用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配，常与通配符配合使用。注意`IN`并非用于判断子串包含。

1824 3 3

微客大师

|

缓存网络协议算法

|

博文

Linux内核必读五本书籍（强烈推荐）

2759 0 0

Echo_Wish

|

机器学习/深度学习算法 Python

|

博文

CatBoost中级教程：集成学习与模型融合

CatBoost中级教程：集成学习与模型融合【2月更文挑战第13天】

790 3 3

Jast

|

Linux 网络虚拟化

|

博文

Debian系统安装OpenVPN

2677 0 0

灵杰开发者

|

API Apache 数据库

|

博文

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

Flink CDC 于 2023 年 12 月 7 日重磅推出了其全新的 3.0 版本 ~

110602 8 10

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

人工智能自然语言处理算法

|

博文

【EMNLP 2023】面向垂直领域的知识预训练语言模型

近日，阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性，发现在垂直领域的图谱结构具有全局稀疏，局部稠密的特点。为了补足全局稀疏特点，将垂直领域中分层语义信息通过双曲空间注入到预训练模型中。为了利用局部图结构稠密特点，我们利用对比学习构造图结构不同难度的正负样本来进一步加强语义稀疏的问题。

1090 6 6

来自：人工智能平台PAI 版块

一颗小树x

|

算法自动驾驶开发者

|

博文

Cityscapes数据集（智能驾驶场景的语义分割）

面向智能驾驶（辅助驾驶、自动驾驶）场景下的语义分割任务，由于非结构化场景的复杂性，是一个非常具有挑战性的任务，所以有许多研究者和研究机构公开了很多相关的数据集推动语义分割领域的发展。本文主要介绍Cityscapes数据集。

2005 0 0

theMilkyWay`

|

数据安全/隐私保护 iOS开发 MacOS

|

博文

免费压缩解压软件神器：Bandizip

1604 0 0

开发者之家

|

机器学习/深度学习人工智能算法

|

博文

【保姆级教程】用PAI-DSW修复亚运历史老照片

本教程整合了来自开源社区的高质量图像修复、去噪、上色等算法，并使用 Stable Diffusion WebUI 进行交互式图像修复。参与者可以根据需要进行参数调整，组合不同的处理方式以获得最佳修复效果。参与者还可以在活动页面上传修复后的成果图片，参与比赛，获胜者将有机会获得丰厚的奖品。

44938 189 197

来自：人工智能平台PAI 版块

小窗幽记机器学习

|

机器学习/深度学习数据处理 Python

|

博文

Python应用专题 | 5：Python多进程处理数据

本文介绍如何使用多进程的方式高效处理海量任务数据

601 0 0

工程师U

|

自然语言处理搜索推荐算法

|

博文

阿里云OpenSearch重磅推出LLM问答式搜索产品，助力企业高效构建对话式搜索服务

OpenSearch推出LLM智能问答版，面向行业搜索场景，提供企业专属问答搜索服务，基于内置的LLM大模型提供问答能力，一站式快速搭建问答搜索系统。

13400 7 15

来自：智能搜索推荐版块

阿里云实时计算Flink

|

关系型数据库 MySQL 数据库

|

博文

Flink CDC 2.2 正式发布，新增四种数据源，支持动态加表，提供增量快照框架

Flink CDC 2.2 正式发布，文末有一则消息或许你会感兴趣～

9997 0 0

来自：实时计算 Flink 版块

工程师甲

|

存储 JSON 自然语言处理

|

博文

Dynamic mapping — Elastic Stack 实战手册

Elasticsearch 本着让用户使用更方便快捷的原则，针对这个问题做了很多工作，使定义数据的方式更加抽象灵活，多个雷同的字段可使用 1 个配置完成。

1777 0 0

来自：检索分析服务 Elasticsearch版版块

海清

|

SQL 分布式计算 Linux

|

博文

MaxCompute - ODPS重装上阵　第七弹 - Grouping Set, Cube and Rollup

MaxCompute中的GROUPING SETS功能是SELECT语句中GROUP BY子句的扩展。允许采用多种方式对结果分组，而不必使用多个SELECT语句来实现这一目的。这样能够使MaxCompute的引擎给出更有的执行计划，从而提高执行性能。

7982 0 0

来自：大数据计算 MaxCompute 版块

ali别离

|

人工智能搜索推荐异构计算

|

博文

背景最近互联网上出现一个热词就是“freestyle”，源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力，freestyle指的是rapper即兴的根据一段主题讲一串rap。

21316 5 18

来自：人工智能平台PAI 版块

奔跑的数据

|

13天前

|

数据采集 Java API

|

博文

拒绝 403 Forbidden！实战解析全球流媒体元数据的高并发爬虫架构（附完整核心源码）

这篇文档介绍了使用Python和代理构建流媒体平台元数据采集方案。包括动态代理池配置、伪装浏览器指纹、实战Demo、高并发避坑指南。旨在帮助构建稳定有效的采集方案。

102 2 2

游客vv4u4wyick5ti

|

16天前

|

存储人工智能供应链

|

博文

就着本体论，再谈语义层

语义层更容易成为企业迈向 AI Agent 的第一站，而本体论更像是企业完成智能决策深水区建设后的下一站。

90 0 0

实时数仓Hologres团队

|

16天前

|

存储 SQL 分布式计算

|

博文

Hologres 4.1 新特性：基于 Stage 的离线导入，平衡吞吐与资源成本的最优解

Hologres 4.1 推出基于 Stage 的离线导入新特性：数据先高速写入内部临时存储（Arrow格式），再批量合并落表。相比 Bulkload，吞吐提升24%–61%，CPU负载降低32%–62%，Serverless 成本节省46%，兼顾高吞吐与低资源开销，适用于近实时报表、海量日志分析等场景。

85 0 0

来自：实时数仓 Hologres 版块

winx_19970108018

|

1月前

|

人工智能 JSON 监控

|

博文

天猫商品详情API数据解析

天猫商品详情API解析方案，涵盖taobao/tmall.item.get接口字段说明、JSON结构、解析代码及SKU/详情图/规格提取。支持价格库存、竞品监测、舆情预警等场景，AI智能清洗、卖点解析与爆款预测，助力中小卖家高效用数。（239字）

153 0 0

NTP校时服务器

|

1月前

|

监控安全 Unix

|

博文

智慧港口：NTP时钟服务器赋能铸造网络高墙

智慧港口依托NTP时钟服务器构建高精度时间同步网络，为视频监控、智能闸口、广播等弱电系统提供毫秒级统一授时。系统融合GPS/北斗双模授时、多网口隔离输出、子钟自动校对、远程监测告警及灵活扩展能力，筑牢港口数字化运营的时间基石。（239字）

197 1 1

yxybox

|

1月前

|

存储人工智能 API

|

博文

基于Flutter3.41+Dart3.11+DeepSeek生成式AI对话应用App助手

Flutter3.41+Dart3+Dio+Getx+Markdown聚合DeepSeek-chat实战AI流式打字智能会话模板。新增深度思考模式、latex公式、mermaid图表，代码高亮/复制代码、图片预览、链接、表格等功能。

150 4 4

pai_rec_coder

|

1月前

|

并行计算算法框架/工具 iOS开发

|

博文

TorchRec在macos ARM芯片（Apple Silicon）上无法安装

JaggedTensor等在macOS ARM芯片上无法运行，主因是ARM64与x86_64架构不兼容，且TorchRec深度依赖CUDA——而Apple Silicon仅支持Metal。fbgemm-gpu缺失、Rosetta 2不支持CUDA指令，导致关键操作失败。建议改用MLX框架或标准PyTorch张量替代。

281 4 4

来自：智能搜索推荐版块

JasonAI爱街舞代码

|

1月前

|

算法调度数据库

|

博文

演化计算与抽样方法构造新算法流程：从 AlphaEvolve 看 LLM × EA 融合范式

本文系统解析AlphaEvolve——Google DeepMind提出的LLM×EA融合新范式：以语义引导的抽样机制、双模型协同进化（Gemini Flash+Pro）、自动评估闭环，实现算法的自主发现与优化，已突破矩阵乘法纪录并提升训练效率。（239字）

262 15 15

二二得四GEO

|

2月前

|

人工智能

|

博文

我学GEO第10天：被豆包引用了，还被千问、元宝认识了

我是二二得四，专注GEO优化第10天。零基础起步，坚持每日图文输出、多平台分发、AI友好写作，已实现豆包/千问/元宝识别“二二得四”（置信度50%-65%），首篇文章被豆包引用。边学边测、边做边迭代，用真实过程记录普通人可复制的AI时代品牌可见性增长路径。

288 7 8

Echo_Wish

|

2月前

|

自然语言处理

|

博文

Nginx反向代理是核心服务器架构技术，可实现请求转发、负载均衡、高可用与安全防护。它隐藏后端服务器，自动剔除故障节点，并支持SSL终止、缓存等高级功能，配置简洁灵活，广泛应用于高性能Web系统。

484 13 13

狸奴算君

|

3月前

|

人工智能物联网 Shell

|

博文

告别“人工智障”：零代码驯服大语言模型，打造你的专属AI助手

本文详解大模型微调（Fine-tuning）如何破解通用AI“懂但不专”的痛点：用专属数据为大模型做“岗前培训”。全程零代码、纯在线，基于ModelScope与QLoRA技术，30分钟即可完成Yi-6B模型微调，重塑其身份认知。兼顾原理通俗解读与手把手实战，助你真正掌握“塑造AI”的主动权。（239字）

400 3 3

狸奴算君

|

4月前

|

数据采集机器学习/深度学习人工智能

|

博文

让你的AI更“懂你”：零代码实践指令微调

指令微调是让大模型“听懂人话、精准执行”的关键技术——它不追求模型更聪明，而致力于更贴心、更可靠。本文用生活化类比讲清Flan-T5、InstructGPT、Self-Instruct三大流派原理，手把手带零代码新手完成数据准备、模型选择、训练测试全流程，并提供避坑指南与效果评估方法。（239字）

347 9 9

狸奴算君

|

4月前

|

存储机器学习/深度学习人工智能

|

博文

别让大模型“失忆”：手把手教你用向量数据库打造它的专属知识库

本文深入浅出地讲解向量数据库原理与实践：用“语义身份证”比喻Embedding，以图书管理员类比关键词与语义搜索差异；手把手用Python+Faiss+BGE搭建中文语义检索系统，并详解RAG流程、效果评估与调优要点，助你为大模型装配真正懂业务的“外挂大脑”。

552 4 4

Echo_Wish

|

4月前

|

SQL 机器学习/深度学习运维

|

博文

MLflow / Feast 实战手记：MLOps 不是装工具，是治内伤

270 13 13

狸奴算君

|

4月前

|

人工智能搜索推荐算法

|

博文

不懂向量数据库？一文讲透其原理与应用场景

向量数据库通过将文本、图像等非结构化数据转化为“数学指纹”（向量），实现语义级相似性检索。它突破传统数据库的精确匹配局限，支撑智能客服、推荐系统与RAG应用。核心原理是Embedding编码+高效索引（如HNSW、IVF），支持亿级数据毫秒搜索。结合元数据过滤的混合查询，显著提升准确性。未来将迈向多模态融合与自适应智能检索，是AI时代不可或缺的基础设施。

775 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

NLTK模块使用详解

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

Python助您洞察先机：2024年A股市场数据抓取与分析实战

云栖实录 | 开源大数据全面升级：Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

DB-GPT v0.6.0 版本更新，发布六大核心新特性！

服务器高效运维管理方案

使用PyTorch从零构建Llama 3

服务器安全：构建数字时代的坚固堡垒

使用`http.server`模块搭建简单HTTP服务器

Python基于RFM模型和K-Means聚类算法进行航空公司客户价值分析

「大数据」Kappa架构

tanh函数

【Hive SQL】字符串操作函数你真的会用吗？

Linux内核必读五本书籍（强烈推荐）

CatBoost中级教程：集成学习与模型融合

Debian系统安装OpenVPN

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

【EMNLP 2023】面向垂直领域的知识预训练语言模型

Cityscapes数据集（智能驾驶场景的语义分割）

免费压缩解压软件神器：Bandizip

【保姆级教程】用PAI-DSW修复亚运历史老照片

Python应用专题 | 5：Python多进程处理数据

阿里云OpenSearch重磅推出LLM问答式搜索产品，助力企业高效构建对话式搜索服务

Flink CDC 2.2 正式发布，新增四种数据源，支持动态加表，提供增量快照框架

Dynamic mapping — Elastic Stack 实战手册

MaxCompute - ODPS重装上阵 第七弹 - Grouping Set, Cube and Rollup

从HA3到AI·OS -- 全图化引擎破茧之路

基于对象特征的推荐

【云上ELK系列】Logstash迁移Elasticsearch数据方法解读

【玩转数据系列十五】机器学习PAI为你自动写歌词，妈妈再也不用担心我的freestyle了（提供数据、代码）

拒绝 403 Forbidden！实战解析全球流媒体元数据的高并发爬虫架构（附完整核心源码）

就着本体论，再谈语义层

Hologres 4.1 新特性：基于 Stage 的离线导入，平衡吞吐与资源成本的最优解

天猫商品详情API数据解析

智慧港口：NTP时钟服务器赋能铸造网络高墙

基于Flutter3.41+Dart3.11+DeepSeek生成式AI对话应用App助手

TorchRec在macos ARM芯片（Apple Silicon）上无法安装

演化计算与抽样方法构造新算法流程：从 AlphaEvolve 看 LLM × EA 融合范式

我学GEO第10天：被豆包引用了，还被千问、元宝认识了

别再只会“复制粘贴数据”了：聊聊 NLP 数据增强的那些实战骚操作

1949AI 零代码本地自动化工具：轻量化部署适配低配置电脑设备

零安装在线网站制作，为什么正在成为新主流

一种基于分层记忆与注意力约束的对话AI架构

梯度累积真的省显存吗？它换走的是什么成本

Nginx 反向代理：原理、优势与配置指南

告别“人工智障”：零代码驯服大语言模型，打造你的专属AI助手

让你的AI更“懂你”：零代码实践指令微调

别让大模型“失忆”：手把手教你用向量数据库打造它的专属知识库

MLflow / Feast 实战手记：MLOps 不是装工具，是治内伤

不懂向量数据库？一文讲透其原理与应用场景

大数据与机器学习

活跃用户

相关产品

MaxCompute - ODPS重装上阵　第七弹 - Grouping Set, Cube and Rollup