大数据

首页 标签 大数据
# 大数据 #
关注
51162内容
|
19天前
|
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
DataWorks智能交互式数据开发与分析之旅
本次实验将带您进行DataWorks Notebook的快速入门,包含:Notebook新建、多引擎SQL开发与分析、Python开发、交互式分析等,同时,使用DataWorks Copilot体验智能数据开发,体验智能交互式数据探索之旅。
|
19天前
|
Pandas数据清洗:缺失值处理
本文详细介绍了Pandas库中处理缺失值的方法,包括检测缺失值、删除缺失值、填充缺失值和插值法填充缺失值。通过基础概念和代码示例,帮助读者理解和解决数据清洗中常见的缺失值问题。
|
19天前
|
《C++数据降维之道:PCA 与 t - SNE 助力信息留存》
在大数据与人工智能时代,数据维度的爆炸式增长给存储、传输和处理带来了巨大挑战。数据降维技术如主成分分析(PCA)和 t-分布随机邻域嵌入(t-SNE)成为关键解决方案。本文探讨了如何在 C++ 中运用这些方法,有效减少数据维度并保留关键信息,为数据分析和机器学习提供支持。
AIGC浪潮涌入高校,首届【弹性计算进校园】研讨会顺利举行
阿里云弹性计算团队于浙江工商大学,开展了首届【弹性计算进校园】交流活动。
|
20天前
|
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
|
20天前
| |
来自: 数据库
跳出营销噱头,深度探索国内培训格局
企业培训从最初的技能补缺,到如今的战略性人才发展布局,它正在从“成本中心”转向“价值创造中心”。一些央企、国企、上市公司更是将培训作为战略推动器,以培养具备全球化视野、数字化思维和创新精神的人才队伍。好的企业培训公司,就像一台高性能引擎,不仅帮助组织提速增效,更能在关键节点实现人才梯队的“基因升级”。
使用 rvest 包快速抓取网页数据:从入门到精通
本文介绍了如何使用 R 语言中的 `rvest` 包结合代理 IP 技术,快速抓取新闻网站的数据。以澎湃新闻为例,详细展示了如何配置代理、解析网页结构、提取新闻标题和摘要,并将数据保存为 CSV 文件。通过本教程,读者可以掌握 `rvest` 包的使用方法,提高爬虫抓取效率。
|
21天前
|
原型模式详解
原型模式是一种创建型设计模式,通过复制已有对象来创建新对象,而非直接实例化类。这种方式特别适用于对象创建成本高或需要深复制的场景。原型模式的优点包括性能优化、简化对象创建和动态增加产品种类,但也有深浅复制问题和对克隆方法的依赖等缺点。适用于对象创建成本高、状态动态变化和避免工厂模式复杂性的场景。核心角色包括抽象原型、具体原型和客户端。
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
免费试用