大数据与机器学习-博文-第33页-阿里云开发者社区

cduukj

|

4月前

|

人工智能搜索推荐数据挖掘

|

博文

深度 AI 学术是怎样学习百度学术、谷歌学术的先进经验的？

深度AI学术融合百度学术与Google Scholar优势，聚合2.8亿文献，支持中英文语义检索、AI自动摘要、引用追踪及趋势分析；创新提供批量翻译、自定义维度解析与学术报告生成，打造智能科研助手。（239字）

369 7 8

来自：智能搜索推荐版块

断箭42

|

4月前

|

人工智能算法

|

博文

【AI大模型面试宝典十】- 推理部署篇

【AI大模型面试宝典】聚焦模型压缩核心技术：量化解析（INT8/INT4/GPTQ/AWQ）、激活量化、稀疏化与知识蒸馏，配实战代码与面试高频题。助你攻克大模型部署难题，精准提升面试竞争力，offer轻松拿！点赞关注，持续更新中～

384 0 0

来自：人工智能平台PAI 版块

断箭42

|

4月前

|

机器学习/深度学习人工智能

|

博文

【AI大模型面试宝典四】- 基础架构篇

【AI大模型知识干货系列】深度解析Transformer位置编码：从绝对到相对，拆解Sinusoidal、RoPE、ALiBi等核心机制，对比优劣，直击面试高频问题。每篇聚焦一个知识点，助你系统掌握大模型关键技术，紧跟AI浪潮！欢迎关注、点赞、批评指正～

311 0 0

来自：人工智能平台PAI 版块

游客fdogdvk2mf5da

|

4月前

|

数据采集人工智能算法

|

博文

AI数字人技术厂商市场格局观察

AI数字人技术正从娱乐迈向多元实用场景，2024年市场规模达41.2亿元，增速超85%。世优科技深耕全栈技术，拥60余项专利，服务千余家品牌，助力政企智能化升级，推动行业向标准化、生态化发展。

323 1 1

来自：人工智能平台PAI 版块

wdzhao

|

4月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

复旦大学×阿里云产学合作协同育人合作案例

复旦大学联合阿里云开展“天池AI案例100开发”项目，赵卫东团队依托产业级平台构建“理论-实训-实战”教学新体系，开发4大综合性AI案例，覆盖图像识别、自然语言处理等方向。通过MOOC、教材、师资培训多渠道辐射全国，累计惠及超13万学习者，形成可复制的产教融合示范范式，推动人工智能人才培养与产业需求无缝对接。（238字）

347 5 5

Echo_Wish

|

4月前

|

人工智能区块链数据库

|

博文

去中心化身份（DID）体系解析：我们真的需要“没有平台”的身份吗？

686 2 2

f5bjkfn5ojoyg

|

4月前

|

Java Go 开发者

|

博文

IDEA开发常用的快捷键

IntelliJ IDEA常用快捷键汇总：涵盖代码生成（如main、sout）、编辑（复制、删除、重命名）、导航（跳转、查找）、格式化、代码阅读及版本控制等高频操作，提升开发效率。熟练掌握可显著优化编码体验，是Java开发者必备技能。

508 1 1

f6l7u64vsmamo

|

5月前

|

数据库

|

博文

什么是 Code 39?

Code 39是1974年由Intermec开发的字母数字条形码，支持43个字符，广泛用于汽车、医疗、国防等领域。分Regular和Full ASCII两种，后者可编码全部128个ASCII字符。结构简单，自校验强，但密度较低。可通过HCreateLabelView轻松生成，适用于非零售场景。

758 2 2

游客2hehlpp5ckvw4

|

5月前

|

人工智能 Java 关系型数据库

|

博文

[舍弃，后续需调整][Blog]JPA实现分页需求(☆☆)

本任务要求在博客系统中实现分页查询功能，需掌握SpringBoot、MySQL、Maven及JPA基础知识。建议使用AI辅助开发，预计耗时1-4小时。需自行添加测试数据以展示分页效果，可基于现有工程改造，注重实践而非标准答案。

283 0 0

游客3y67jmtfeq4fa

|

5月前

|

Kubernetes IDE Java

|

博文

2.部署篇（开发部署）

本文介绍如何将SpringCloud应用部署到Kubernetes云端。通过EDAS导入ACK集群，初始化应用并选择运行环境，开发者可利用IDE插件快速上传JAR/WAR包部署，提升开发效率。后续将讲解运维视角的自动化构建与部署流程。（238字）

142 0 0

be4z2royodrny

|

5月前

|

存储 Java

|

博文

超长String接收处理

Java中String变量最大长度为Integer.MAX_VALUE，但字符串字面量受class文件格式限制，最大65534。超过会编译错误，需通过StringBuilder分组处理长字符串。

228 0 0

ChenAI_TGF

|

5月前

|

存储 Linux 数据处理

|

博文

实用程序：基于Python+Tkinter开发表格比对&整理工具

一款基于Python+Tkinter开发的免费开源Excel处理工具，支持表格差异比对与错乱行整理，完整保留图片，兼容.xlsx和.csv格式。操作简单，支持自定义比对列、多线程处理，解决日常办公中数据比对、行合并及图片丢失等痛点，适用于各类Excel数据清理场景。（239字）

484 12 12

建站专业户

|

6月前

|

缓存关系型数据库 MySQL

|

博文

网站源码二次开发基础：环境搭建与简单修改步骤

本文围绕 PageAdmin（PA）开源 CMS 展开，聚焦新手二次开发核心：先明确 PHP、MySQL 等环境需求，以 PHPStudy 为例详解安装配置、源码部署、数据库创建及系统安装步骤；再阐述后台登录、基础信息修改、栏目与内容管理、简单模板调整及缓存清理等实操流程，为新手提供清晰易懂的入门指南。

1056 11 11

来自：人工智能平台PAI 版块

Echo_Wish

|

6月前

|

供应链算法大数据

|

博文

数据不是水晶球，却能让我们少踩 90% 的坑：未来经济预测的真实力量

394 1 1

Echo_Wish

|

6月前

|

SQL 人工智能 API

|

博文

LangChain 不只是“拼模型”：教你从零构建可编程的 AI 工作流

793 8 8

Echo_Wish

|

7月前

|

算法数据挖掘大数据

|

博文

别光努力发内容了，先把“数据眼”睁开：用数据放大你的社交媒体影响力

510 8 8

Echo_Wish

|

7月前

|

人工智能自然语言处理机器人

|

博文

别让AI“答非所问”：用数据调教聊天机器人，越聊越聪明

739 11 11

winx_19970108018

|

7月前

|

XML JSON API

|

博文

苏宁商品详情API秘籍！轻松获取商品详情数据

苏宁商品详情API基于RESTful架构，支持JSON/XML格式，通过AppKey、AppSecret与签名三重认证，结合OAuth 2.0实现安全调用。开发者可获取商品名称、价格、销量、库存、促销等实时数据，适用于电商分析与商业智能。接口强制使用HTTPS协议，支持POST/GET请求，统一采用UTF-8编码，确保数据传输安全可靠。

662 1 1

IvanCodes

|

8月前

|

分布式计算 Java 关系型数据库

|

博文

在大数据开发实战中，Sqoop 是数据库与 Hadoop 生态之间不可或缺的数据传输工具。这篇文章将以 Sqoop 1.4.7 为例，结合官方站点截图，详细讲解 Sqoop 的下载路径、安装步骤、环境配置，以及常见 JDBC 驱动的准备过程，帮你一步步搭建出能正常运行的 Sqoop 环境，并通过 list-databases 命令验证安装是否成功。如果你正打算学习 Sqoop，或者在搭建大数据平台过程中遇到安装配置问题，本文将是非常实用的参考指南。

839 6 6

奔跑的数据

|

8月前

|

数据采集存储缓存

|

博文

LLM + 抓取：让学术文献检索更聪明

结合爬虫与大模型，打造懂语义的学术检索助手：自动抓取最新NLP+爬虫论文，经清洗、向量化与RAG增强，由LLM提炼贡献，告别关键词匹配，实现精准智能问答。

937 0 2

winx_19970108018

|

9月前

|

JSON API 数据格式

|

博文

1688店铺订单列表订单详情订单物流API响应数据解析

1688平台作为阿里巴巴旗下的B2B电商利器，提供高效订单管理API，支持订单查询、状态变更与物流同步，助力企业提升运营效率。本文附Python请求示例代码，实现便捷对接与数据获取。

460 0 0

啦啦啦191

|

10月前

|

消息中间件监控 Java

|

博文

借助最新技术构建 Java 邮件发送功能的详细流程与核心要点分享 Java 邮件发送功能

本文介绍了如何使用Spring Boot 3、Jakarta Mail、MailHog及响应式编程技术构建高效的Java邮件发送系统，涵盖环境搭建、异步发送、模板渲染、测试与生产配置，以及性能优化方案，助你实现现代化邮件功能。

705 0 0

灵杰开发者

|

10月前

|

人工智能运维自然语言处理

|

博文

如何在 Elasticsearch 中构建你的智能 AI 助手？

本文将带你探索一种全新的思路：如何基于 Elasticsearch 快速构建一个具备自然语言理解能力、异常检测和安全威胁识别能力的智能运维 AI 助手。文章会围绕实际部署流程、关键技术点和典型应用场景展开，帮助你把 Elasticsearch 从“日志仓库”升级为“智能决策中枢”。

532 30 30

来自：检索分析服务 Elasticsearch版版块

Echo_Wish

|

10月前

|

人工智能自然语言处理搜索推荐

|

博文

学霸养成计划：AI如何打造你的专属“学习外挂”？

350 0 0

Deephub

|

11月前

|

机器学习/深度学习数据采集算法

|

博文

Python AutoML框架选型攻略：7个工具性能对比与应用指南

本文系统介绍了主流Python AutoML库的技术特点与适用场景，涵盖AutoGluon、PyCaret、TPOT、Auto-sklearn、H2O AutoML及AutoKeras等工具，帮助开发者根据项目需求高效选择自动化机器学习方案。

1336 1 1

djy3xngakhsl4

|

12月前

|

人工智能 JSON 安全

|

博文

VIN码查询_标准版API:帮助解锁车辆的“身份证”详细信息的实战指南

VIN码（车辆识别号码）是由17位字母和数字组成的全球唯一编码，相当于汽车的“身份证”。通过解析VIN码，可获取品牌、车系、生产年份等关键信息。探数API平台的VIN码查询API（标准版），只需输入VIN码即可返回完整车辆配置信息。该API适用于多种场景：电商平台可自动填充商品详情，提升准确性；维修行业能精准匹配零件与诊断需求；二手车市场则增强交易透明度与安全性。其调用流程简单，包括准备VIN码、构造请求、处理响应及异常处理。 VIN码不仅是查询工具，更是连接制造、销售、维修、保险等环节的纽带。

1089 6 6

小白学大数据

|

Web App开发数据采集 JavaScript

|

博文

动态网页爬取：Python如何获取JS加载的数据？

1774 58 58

Deephub

|

数据采集安全数据挖掘

|

博文

Pandas数据合并：10种高效连接技巧与常见问题

在数据分析中，数据合并是常见且关键的步骤。本文针对合并来自多个来源的数据集时可能遇到的问题，如列丢失、重复记录等，提供系统解决方案。基于对超1000个复杂数据集的分析经验，总结了10种关键技术，涵盖Pandas库中`merge`和`join`函数的使用方法。内容包括基本合并、左连接、右连接、外连接、基于索引连接、多键合并、数据拼接、交叉连接、后缀管理和合并验证等场景。通过实际案例与技术原理解析，帮助用户高效准确地完成数据整合任务，提升数据分析效率。

1079 13 13

小白学大数据

|

数据采集 Web App开发 JavaScript

|

博文

Python爬虫如何获取JavaScript动态渲染后的网页内容？

1443 6 8

Echo_Wish

|

存储 SQL 分布式计算

|

博文

别让你的数据“裸奔”！大数据时代的数据隐私保护实战指南

732 19 19

aliyun4381607004

|

PyTorch 调度算法框架/工具

|

博文

阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析

DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案

629 18 18

来自：人工智能平台PAI 版块

阿里云大数据

|

存储运维 Serverless

|

博文

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构，解决了海量数据处理中的资源利用率低、并发能力不足等问题，显著降低了硬件和运维成本。实时查询性能提升8倍，查询出错率减少30倍，集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验，还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

1230 69 69

来自：开源大数据平台 E-MapReduce 版块

Deephub

|

机器学习/深度学习人工智能自然语言处理

|

博文

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）是由字节跳动提出的一种突破性的开源大语言模型强化学习系统。基于Qwen2.5-32B基础模型，DAPO在AIME 2024测试中以50分的优异成绩超越了现有最佳模型，

1502 6 11

Echo_Wish

|

数据采集机器学习/深度学习存储

|

博文

可穿戴设备如何重塑医疗健康：技术解析与应用实战

742 4 4

赵渝强老师

|

XML 存储分布式计算

|

博文

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

HDFS（Hadoop分布式文件系统）由三个核心组件构成：NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求，维护元数据文件fsimage和edits；DataNode存储实际的数据块，默认大小为128MB；SecondaryNameNode定期合并edits日志到fsimage中，但不作为NameNode的热备份。通过这些组件的协同工作，HDFS实现了高效、可靠的大规模数据存储与管理。

1653 70 75

来自：大数据计算 MaxCompute 版块

阿里云大数据Al技术

|

机器学习/深度学习人工智能缓存

|

博文

云上玩转DeepSeek系列之五：实测优化16%, 体验FlashMLA加速DeepSeek-V2-Lite推理

DeepSeek-AI 开源的 FlashMLA 是一个优化多层注意力机制的解码内核，显著提升大语言模型的长序列处理和推理效率。本文介绍了如何在 PAI 平台上安装并使用 FlashMLA 部署 DeepSeek-V2-Lite-Chat 模型。通过优化后的 FlashMLA，实现了约 16% 的性能提升。

1284 10 10

来自：人工智能平台PAI 版块

winx_19970108018

|

算法 API 数据安全/隐私保护

|

博文

淘宝商品详情 API 接口（淘宝 API 系列）

淘宝商品详情API接口为电商从业者、数据分析师及开发者提供获取淘宝商品详细信息的便捷途径。该接口涵盖商品名称、价格、图片、描述、用户评价等多维度数据，助力市场分析与应用开发。严格的权限管理和灵活的请求方式确保数据安全和高效获取。Python示例代码展示了如何通过API获取特定商品的详情信息，包括构建请求参数、生成签名及处理响应结果。供稿：Taobaoapi2014 接口特点： - **丰富的数据内容**：提供商品基础信息、价格、图片、描述及用户评价。 - **多种请求方式**：支持GET和POST请求，灵活设置参数满足不同需求。

420 0 0

Deephub

|

机器学习/深度学习存储缓存

|

博文

LLM高效推理：KV缓存与分页注意力机制深度解析

随着大型语言模型（LLM）规模和复杂性的增长，高效推理变得至关重要。KV缓存和分页注意力是优化LLM推理的两项关键技术。KV缓存通过存储键值对减少重复计算，而分页注意力则通过将序列分割成小块来降低内存消耗，从而有效处理长序列。本文深入剖析这些技术的工作原理及其在仅解码器模型中的应用，探讨其优势与挑战，并展示其实现示例。

1131 16 16

Deephub

|

人工智能自然语言处理监控

|

博文

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型（LLMs）中的解码策略技术原理及其应用。通过深入分析贪婪解码、束搜索、采样技术等核心方法，以及温度参数、惩罚机制等优化手段，为研究者和工程师提供了全面的技术参考。文章详细探讨了不同解码算法的工作机制、性能特征和优化方法，强调了解码策略在生成高质量、连贯且多样化文本中的关键作用。实例展示了各类解码策略的应用效果，帮助读者理解其优缺点及适用场景。

1502 20 20

Deephub

|

自然语言处理算法 JavaScript

|

博文

面向长文本的多模型协作摘要架构：多LLM文本摘要方法

多LLM摘要框架通过生成和评估两个步骤处理长文档，支持集中式和分散式两种策略。每个LLM独立生成文本摘要，集中式方法由单一LLM评估并选择最佳摘要，而分散式方法则由多个LLM共同评估，达成共识。论文提出两阶段流程：先分块摘要，再汇总生成最终摘要。实验结果显示，多LLM框架显著优于单LLM基准，性能提升最高达3倍，且仅需少量LLM和一轮生成评估即可获得显著效果。

939 10 10

Echo_Wish

|

机器学习/深度学习人工智能监控

|

博文

AI在交通管理系统中的应用

768 23 23

游客7q6odlcu3jr5c

|

API 数据安全/隐私保护开发者

|

博文

实时获取小红书详情 API 数据

小红书详情API数据获取指南：注册开发者账号，创建应用并申请接口权限，构建请求获取笔记详情，使用Python等语言处理响应数据。需遵守使用规则，注意调用频率和数据安全。

1792 6 7

API小知识

|

JSON API 数据格式

|

博文

如何使用Python开发1688商品详情API接口？

本文介绍了如何使用Python开发1688商品详情API接口，获取商品的标题、价格、销量和评价等详细信息。主要内容包括注册1688开放平台账号、安装必要Python模块、了解API接口、生成签名、编写Python代码、解析返回数据以及错误处理和日志记录。通过这些步骤，开发者可以轻松地集成1688商品数据到自己的应用中。

505 1 1

Deephub

|

监控

|

博文

SMoA: 基于稀疏混合架构的大语言模型协同优化框架

通过引入稀疏化和角色多样性，SMoA为大语言模型多代理系统的发展开辟了新的方向。

740 6 7

Java开发者

|

Java Unix Linux

|

博文

Java “SocketException” 错误怎么处理

Java 中的 "SocketException" 错误通常发生在网络通信过程中，如连接失败、断开连接或数据传输异常。处理方法包括检查网络配置、确保服务器正常运行、使用超时设置和重试机制，以及捕获并处理异常。

2760 6 6

扬流

|

SQL 存储缓存

|

博文

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本，该版本不仅基于开源 StarRocks 进行了全面优化，实现了存储与计算解耦架构，还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

1566 62 62

来自：开源大数据平台 E-MapReduce 版块

Deephub

|

机器学习/深度学习编解码负载均衡

|

博文

MoH：融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

本文提出了一种名为混合头注意力（MoH）的新架构，旨在提高Transformer模型中注意力机制的效率。MoH通过动态注意力头路由机制，使每个token能够自适应选择合适的注意力头，从而在减少激活头数量的同时保持或提升模型性能。实验结果显示，MoH在图像分类、类条件图像生成和大语言模型等多个任务中均表现出色，尤其在减少计算资源消耗方面有显著优势。

603 1 1

灵杰开发者

|

分布式计算大数据 Serverless

|

博文

云栖实录 | 开源大数据全面升级：Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

在2024云栖大会开源大数据专场上，阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash，该引擎100%兼容Apache Flink标准，性能提升5-10倍，助力企业降本增效。此外，EMR Serverless Spark产品启动商业化，提供全托管Serverless服务，性能提升300%，并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行，欢迎报名参加。

1043 6 6

来自：实时计算 Flink 版块

灵杰开发者

|

存储 SQL 大数据

|

博文

用实时计算释放当下企业大数据潜能

本文整理自阿里云高级产品解决方案架构师王启华（敖北）老师在 Flink Forward Asia 2023 中闭门会的分享。

1026 8 9

来自：实时计算 Flink 版块

郑小健

|

存储 Ubuntu 搜索推荐

|

博文

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

【8月更文第29天】**摘要** JupyterHub 是一个易于使用的、可伸缩的、多用户的 Jupyter Notebook 服务器。它允许您在一个集中式服务器上托管多个独立的 Jupyter Notebook 会话，非常适合团队协作和教学环境。本文将详细介绍如何安装和配置 JupyterHub，以及如何利用它来构建一个多用户 Jupyter 服务器环境。

5745 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

深度 AI 学术是怎样学习百度学术、谷歌学术的先进经验的？

【AI大模型面试宝典十】- 推理部署篇

【AI大模型面试宝典四】- 基础架构篇

AI数字人技术厂商市场格局观察

复旦大学×阿里云产学合作协同育人合作案例

去中心化身份（DID）体系解析：我们真的需要“没有平台”的身份吗？

IDEA开发常用的快捷键

什么是 Code 39?

[舍弃，后续需调整][Blog]JPA实现分页需求(☆☆)

2.部署篇（开发部署）

超长String接收处理

实用程序：基于Python+Tkinter开发表格比对&整理工具

网站源码二次开发基础：环境搭建与简单修改步骤

数据不是水晶球，却能让我们少踩 90% 的坑：未来经济预测的真实力量

LangChain 不只是“拼模型”：教你从零构建可编程的 AI 工作流

别光努力发内容了，先把“数据眼”睁开：用数据放大你的社交媒体影响力

别让AI“答非所问”：用数据调教聊天机器人，越聊越聪明

苏宁商品详情API秘籍！轻松获取商品详情数据

二、Sqoop 详细安装部署教程

LLM + 抓取：让学术文献检索更聪明

1688店铺订单列表订单详情订单物流API响应数据解析

借助最新技术构建 Java 邮件发送功能的详细流程与核心要点分享 Java 邮件发送功能

如何在 Elasticsearch 中构建你的智能 AI 助手？

学霸养成计划：AI如何打造你的专属“学习外挂”？

Python AutoML框架选型攻略：7个工具性能对比与应用指南

VIN码查询_标准版API:帮助解锁车辆的“身份证”详细信息的实战指南

动态网页爬取：Python如何获取JS加载的数据？

Pandas数据合并：10种高效连接技巧与常见问题

Python爬虫如何获取JavaScript动态渲染后的网页内容？

﻿别让你的数据“裸奔”！大数据时代的数据隐私保护实战指南

阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

DAPO: 面向开源大语言模型的解耦裁剪与动态采样策略优化系统

可穿戴设备如何重塑医疗健康：技术解析与应用实战

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

云上玩转DeepSeek系列之五：实测优化16%, 体验FlashMLA加速DeepSeek-V2-Lite推理

淘宝商品详情 API 接口（淘宝 API 系列）

LLM高效推理：KV缓存与分页注意力机制深度解析

大语言模型的解码策略与关键优化总结

面向长文本的多模型协作摘要架构：多LLM文本摘要方法

AI在交通管理系统中的应用

实时获取小红书详情 API 数据

如何使用Python开发1688商品详情API接口？

SMoA: 基于稀疏混合架构的大语言模型协同优化框架

Java “SocketException” 错误怎么处理

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

MoH：融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

云栖实录 | 开源大数据全面升级：Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

用实时计算释放当下企业大数据潜能

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

大数据与机器学习

活跃用户

相关产品

别让你的数据“裸奔”！大数据时代的数据隐私保护实战指南