大数据与机器学习-博文-第34页-阿里云开发者社区

郑小健

|

存储 Ubuntu 搜索推荐

|

博文

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

【8月更文第29天】**摘要** JupyterHub 是一个易于使用的、可伸缩的、多用户的 Jupyter Notebook 服务器。它允许您在一个集中式服务器上托管多个独立的 Jupyter Notebook 会话，非常适合团队协作和教学环境。本文将详细介绍如何安装和配置 JupyterHub，以及如何利用它来构建一个多用户 Jupyter 服务器环境。

5741 0 0

Deephub

|

机器学习/深度学习算法

|

博文

XGBoost中正则化的9个超参数

本文探讨了XGBoost中多种正则化方法及其重要性，旨在通过防止过拟合来提升模型性能。文章首先强调了XGBoost作为一种高效算法在机器学习任务中的应用价值，并指出正则化对于缓解过拟合问题的关键作用，具体包括降低模型复杂度、改善泛化能力和防止模型过度适应训练数据。随后，文章详细介绍了四种正则化方法：减少估计器数量（如使用`early_stopping_rounds`）、使用更简单的树（如调整`gamma`和`max_depth`）、采样（如设置`subsample`和`colsample`）以及收缩（如调节`learning_rate`, `lambda`和`alpha`）。

886 0 0

eisc

|

Ubuntu Python

|

博文

ubuntu build install python3.12 and config pip

该脚本用于在 Ubuntu 上编译安装 Python 3.12，并配置 pip 使用国内镜像源。主要步骤包括安装依赖、下载并解压 Python 源码、编译安装、创建符号链接、配置 pip 源，以及验证安装和更新 pip。通过运行此脚本，可以快速完成 Python 3.12 的安装和配置。

2388 0 0

来自：大数据运维SREWorks 版块

Deephub

|

机器学习/深度学习算法 PyTorch

|

博文

使用Pytorch中从头实现去噪扩散概率模型（DDPM）

在本文中，我们将构建基础的无条件扩散模型，即去噪扩散概率模型（DDPM）。从探究算法的直观工作原理开始，然后在PyTorch中从头构建它。本文主要关注算法背后的思想和具体实现细节。

9550 3 4

阿里云大数据Al技术

|

机器学习/深度学习人工智能分布式计算

|

博文

阿里云人工智能平台PAI论文入选OSDI '24

阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型（LLM）推理请求的动态调度，大幅提升了推理服务质量和性价比。

1877 11 11

来自：人工智能平台PAI 版块

wusp1994

|

测试技术 Python

|

博文

【手机群控】利用Python与uiautomator2实现

使用Python的uiautomator2库进行多设备自动化测试，涉及环境准备（Python、uiautomator2、adb连接设备）和代码实现。通过`adb devices`获取设备列表，使用多进程并行执行测试脚本，每个脚本通过uiautomator2连接设备并获取屏幕尺寸。注意设备需开启USB调试并授权adb。利用多进程而非多线程，因Python的GIL限制。文章提供了一种提高测试效率的方法，适用于大规模设备测试场景。

1553 2 2

游客etoojqwjsu3q2

|

弹性计算人工智能运维

|

博文

60分钟深度测评阿里云基于大模型构建的操作系统智能助手

OS Copilot 概要 OS Copilot 是阿里巴巴云针对Linux操作系统开发的智能助手，集成在Alibaba Cloud Linux中，利用大模型技术提供自然语言问答、命令行辅助、阿里云CLI调用和系统运维功能。它尤其适合新手，直观的交互方式提升效率。此外，OS Copilot支持在操作系统内直接管理阿里云资源，简化运维任务。目前，该助手仅在特定版本的Alibaba Cloud Linux上可用。体验者可以通过提供的链接和指南进行实操，体验其功能，如命令行的自然语言交互和环境变量配置。OS Copilot在提高用户体验和工作流集成方面的创新，预示着未来AI在操作系统中的广泛应用。

910 1 1

来自：人工智能平台PAI 版块

aliyun0925406400-41188

|

机器学习/深度学习数据采集人工智能

|

博文

Python实现深度神经网络RNN-LSTM分类模型(医学疾病诊断)

731 0 0

来自：人工智能平台PAI 版块

AIGC小王子

|

自然语言处理算法 API

|

博文

「AIGC」Python实现tokens算法

使用Python的`transformers`库，通过`AutoTokenizer`初始化BERT tokenizer，对文本进行分词统计，减少API调用。示例展示从开始到结束的时间，包括文本转换为tokens的数量和过程耗时。

880 0 0

郑小健

|

人工智能编解码自然语言处理

|

博文

通义万相功能使用实战

【7月更文第2天】阿里云的通义万相是款AI绘画工具，让用户通过文本描述创建个性化头像。首先，注册阿里云账号并登录平台。明确头像风格、特征和背景，然后在平台上选择“文本生成图像”，输入详细描述。设定尺寸后提交生成。系统会提供多个选项，用户可选择、调整或重新生成。满意后下载头像，应用于社交平台。记得提供清晰的描述以获取最佳效果，勇于探索不同的创意组合。通义万相，让AI助你实现艺术想象。

1674 0 0

千里一游

|

人工智能弹性计算运维

|

博文

操作系统智能助手OS Copilot 产品体验评测

**OS Copilot 体验摘要** - AI爱好者评价其部署简单，一键快捷，无使用障碍，适合作为智能助手。 - 初次使用者表示聊天功能最吸引人，但无法立即评出对工作帮助的程度。 - 愿意推荐给他人，且有参与开源开发及模型训练的兴趣。 **功能反馈** - 用户尝试了全部功能，特别喜欢聊天交互。 - 与通义千问等多款产品对比，OS Copilot的速度较快。 - 希望增加功能：集成云端Notebook，自动代码生成和错误修正，支持所有操作系统。 - 潜在应用：与阿里云服务如魔搭、ECS结合，打造智能开发和工作流程。

523 1 1

张飞的猪

|

SQL 资源调度数据库连接

|

博文

Hive怎么调整优化Tez引擎的查询？在Tez上优化Hive查询的指南

在Tez上优化Hive查询，包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈（如mapper/reducer任务和连接操作），理解Tez如何动态调整mapper和reducer数量。例如，`tez.grouping.max-size` 影响mapper数量，`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`

1828 0 0

wusp1994

|

JavaScript 前端开发数据可视化

|

博文

ECharts 雷达图案例001-自定义节点动画

使用ECharts创建自定义雷达图，通过JavaScript动态更新高亮和交互反馈，增强用户体验。关键步骤包括：开启动画效果，数据更新时保持图表状态，鼠标悬浮时动态高亮指标，优化动画性能。案例展示了ECharts在数据可视化中的灵活性和表现力。[查看完整案例](https://download.csdn.net/download/No_Name_Cao_Ni_Mei/89454380)。

1482 0 0

winx_19970108018

|

数据采集 XML API

|

博文

淘宝商品评论数据采集教程丨淘宝商品评论数据接口（Taobao.item_review）

**摘要：** 本教程指导如何使用淘宝(Taobao.item_review)接口采集商品评论。步骤包括注册开发者账号，创建应用获取API密钥，发送请求（如num_iid, page, size参数），解析JSON或XML返回数据，并遵循使用规则与安全注意事项。接口允许获取商品评论列表，含评论内容、评论者信息等，适用于数据分析和市场研究。务必保护API密钥并遵守使用政策。

1605 1 1

实时数仓Hologres团队

|

存储 SQL 搜索推荐

|

博文

一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01

131069 19 25

来自：实时数仓 Hologres 版块

李麒麟

|

机器学习/深度学习 Python

|

博文

tanh函数

本文探讨了高等数学中的tanh函数，即双曲正切函数，其定义为 $\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$，导数为 $1 - \tanh^2(x)$。tanh函数广泛适用于各类场景，并在神经网络中有重要应用。提供的Python代码绘制了tanh函数及其导数的图像。

1723 1 1

该用户已在

|

Python

|

博文

python批量处理视频文件并重命名

该Python脚本执行以下任务：遍历`source_folder`中的所有MP4视频文件，将其移动到`destination_folder`，并按顺序重命名（视频1.mp4，视频2.mp4，...）。

485 0 0

kng32f3vbngrm

|

存储 Linux 网络安全

|

博文

在 Linux 中通过 SSH 执行远程命令时，无法自动加载环境变量（已解决）

SSH远程执行命令时遇到“命令未找到”问题，原因是Linux登录方式不同导致环境变量加载差异。解决方案：将环境变量写入`/etc/profile.d/`下的文件，或手动在命令前加载环境变量，如`source /etc/profile`。

1947 0 0

kng32f3vbngrm

|

SQL BI HIVE

|

博文

【Hive SQL 每日一题】统计用户留存率

用户留存率是衡量产品成功的关键指标，表示用户在特定时间内持续使用产品的比例。计算公式为留存用户数除以初始用户数。例如，游戏发行后第一天有10000玩家，第七天剩5000人，第一周留存率为50%。提供的SQL代码展示了如何根据用户活动数据统计每天的留存率。需求包括计算系统上线后的每日留存率，以及从第一天开始的累计N日留存率。通过窗口函数`LAG`和`COUNT(DISTINCT user_id)`，可以有效地分析用户留存趋势。

2067 1 2

森林木枫彬-49940

|

博文

PR曲线、ROC曲线、AUC能干个啥

评判二分类分类器性能的指标有那么多，为什么PR曲线、ROC曲线、AUC值这几个用的比较多。本文从概念、代码实现方面着手进行分享。

1226 4 4

芯在这

|

消息中间件 Oracle 关系型数据库

|

博文

实时计算 Flink版操作报错合集之报错io.debezium.DebeziumException: The db history topic or its content is fully or partially missing. Please check database history topic configuration and re-execute the snapshot. 是什么原因

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

1386 0 0

来自：实时计算 Flink 版块

Echo_Wish

|

机器学习/深度学习数据挖掘 PyTorch

|

博文

使用Python实现长短时记忆网络（LSTM）的博客教程

2692 0 0

Byyyi

|

存储 SQL 分布式计算

|

博文

【史上最全】Hadoop精选18道面试题(附回答思路)

2122 1 2

Byyyi

|

SQL 分布式计算资源调度

|

博文

Hive 优化总结

Hive优化主要涉及HDFS和MapReduce的使用。问题包括数据倾斜、操作过多和不当使用。识别倾斜可通过检查分区文件大小或执行聚合抽样。解决方案包括整体优化模型设计，如星型、雪花模型，合理分区和分桶，以及压缩。内存管理需调整mapred和yarn参数。倾斜数据处理通过选择均衡连接键、使用map join和combiner。控制Mapper和Reducer数量以避免小文件和资源浪费。减少数据规模可调整存储格式和压缩，动态或静态分区管理，以及优化CBO和执行引擎设置。其他策略包括JVM重用、本地化运算和LLAP缓存。

740 4 4

阿里云开发者

|

SQL 分布式计算资源调度

|

博文

一文解析 ODPS SQL 任务优化方法原理

本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发，分析日常数据研发过程中各种优化方法背后的原理，覆盖了部分调优方法的分析，从知道怎么优化，到为什么这样优化，以及还能怎样优化。

105078 1 1

来自：大数据计算 MaxCompute 版块

长梦

|

数据采集 SQL 监控

|

博文

大数据清洗的艺术：有效处理缺失值、异常值与重复数据

【4月更文挑战第8天】本文探讨了大数据清洗的三个关键环节：缺失值处理、异常值识别与处理、重复数据消除。在处理缺失值时，涉及识别、理解原因、选择删除、填充或保留策略，并进行结果验证。异常值识别包括统计方法、业务规则和可视化检查，处理策略包括删除、修正和标记。重复数据的识别基于主键和关键属性，处理策略有删除、合并和哈希，处理后需持续监控。数据清洗是一门艺术，需要结合统计学、编程技能和业务理解。

4301 2 2

蓝易云

|

Java 应用服务中间件 Maven

|

博文

解决“Unable to start embedded Tomcat“错误的完整指南

通过逐步检查以上问题，你应该能够解决 "Unable to start embedded Tomcat" 错误，并使Tomcat成功启动。

5099 1 1

灵杰开发者

|

机器学习/深度学习消息中间件算法

|

博文

Flink ML的新特性解析与应用

本文整理自阿里巴巴算法专家赵伟波，在 Flink Forward Asia 2023 AI特征工程专场的分享。

130349 5 10

来自：实时计算 Flink 版块

孙玉洁-47170

|

SQL Oracle 关系型数据库

|

博文

SQL 的 with as 临时中间表

737 1 1

Jast

|

SQL 关系型数据库 MySQL

|

博文

SuperSet服务安装

1281 0 0

winx_19970108018

|

数据处理 Python

|

Centos7 yum 安装chrome配置yum源vim /etc/yum.repos.d/google-chrome.repo写入以下内容[google-chrome]name=google-chromebaseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearchenabled=1gpgcheck=1gpgkey=http...

1414 0 1

海清

|

SQL 分布式计算大数据

|

博文

MaxCompute元数据使用实践 -- 数据下载审计

通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息，方便您进行数据流转的审计排查。

1225 0 0

来自：大数据计算 MaxCompute 版块

实时数仓Hologres团队

|

存储分布式计算 MaxCompute

|

博文

Hologres RoaringBitmap实践，千亿级画像数据秒级分析

本文将会分享Hologres RoaringBitmap 方案在画像分析的应用实践，实现更快更准的画像分析。

120349 13 14

来自：实时数仓 Hologres 版块

懒py夏洛

|

Python

|

在Pycharm中使用Jupyter，并配置自定义的Conda环境

4563 0 0

扬流

|

SQL 关系型数据库 MySQL

|

博文

猿辅导基于 EMR StarRocks 的 OLAP 演进之路

猿辅导大数据平台团队负责人申阳分享了猿辅导基于EMR StarRocks 的 OLAP 演进之路。

13302 5 9

来自：开源大数据平台 E-MapReduce 版块

May-Hologres

|

SQL 存储大数据

|

博文

新手攻略指南：教你四步创建你的PAI-DSW实验室！

7131 0 3

来自：人工智能平台PAI 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

构建多用户的 Jupyter 服务器 —— 利用 JupyterHub

XGBoost中正则化的9个超参数

ubuntu build install python3.12 and config pip

使用Pytorch中从头实现去噪扩散概率模型（DDPM）

阿里云人工智能平台PAI论文入选OSDI '24

【手机群控】 利用Python与uiautomator2实现

60分钟深度测评阿里云基于大模型构建的操作系统智能助手

Python实现深度神经网络RNN-LSTM分类模型(医学疾病诊断)

「AIGC」Python实现tokens算法

通义万相功能使用实战

操作系统智能助手OS Copilot 产品体验评测

Hive怎么调整优化Tez引擎的查询？在Tez上优化Hive查询的指南

ECharts 雷达图案例001-自定义节点动画

淘宝商品评论数据采集教程丨淘宝商品评论数据接口（Taobao.item_review）

一站式实时数仓Hologres整体能力介绍—2024实时数仓Hologres公开课 01

tanh函数

python批量处理视频文件并重命名

在 Linux 中通过 SSH 执行远程命令时，无法自动加载环境变量（已解决）

【Hive SQL 每日一题】统计用户留存率

PR曲线、ROC曲线、AUC能干个啥

实时计算 Flink版操作报错合集之报错io.debezium.DebeziumException: The db history topic or its content is fully or partially missing. Please check database history topic configuration and re-execute the snapshot. 是什么原因

使用Python实现长短时记忆网络（LSTM）的博客教程

【史上最全】Hadoop精选18道面试题(附回答思路)

Hive 优化总结

一文解析 ODPS SQL 任务优化方法原理

大数据清洗的艺术：有效处理缺失值、异常值与重复数据

解决“Unable to start embedded Tomcat“错误的完整指南

Flink ML的新特性解析与应用

SQL 的 with as 临时中间表

SuperSet服务安装

Python实现post请求微店商品详情数据接口

【EMNLP 2023】面向垂直领域的知识预训练语言模型

通义千问开源模型在PAI灵骏的最佳实践

【云栖2023】张治国：MaxCompute架构升级及开放性解读

Centos7 yum 安装chrome

MaxCompute元数据使用实践 -- 数据下载审计

Hologres RoaringBitmap实践，千亿级画像数据秒级分析

关于抓包问题，这里以美团为例。

变分法入门介绍

机器学习系列 | 04： 知识图谱发展历程及其分类

机器学习系列 | 01：多类别分类任务(multi-class)中为何precision,recall和F1相等？

【Pycharm配置】在Pycharm中配置Jupyter环境

猿辅导基于 EMR StarRocks 的 OLAP 演进之路

10亿+/秒！看阿里如何搞定实时数仓高吞吐实时写入与更新

Flink CDC 2.2 正式发布，新增四种数据源，支持动态加表，提供增量快照框架

使用实践｜Hologres性能调优全方位解读

外部工具连接SaaS模式云数据仓库MaxCompute实战——BI分析工具篇

开放下载！《SaaS模式云数据仓库实践手册》

持续定义SaaS模式云数据仓库+AI

新手上路：PAI-DSW实验室创建攻略 | 《阿里云机器学习PAI-DSW入门指南》

大数据与机器学习

活跃用户

相关产品

【手机群控】利用Python与uiautomator2实现

机器学习系列 | 04：知识图谱发展历程及其分类