大数据与机器学习-博文-第43页-阿里云开发者社区

小白学大数据

|

数据采集 Web App开发数据可视化

|

博文

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

440 0 0

张飞的猪

|

SQL 存储算法

|

博文

ClickHouse(06)ClickHouse建表语句DDL详细解析

ClickHouse创建表有多种语法，包括在当前服务器上创建、复制已有表结构、从表函数创建和从查询创建。表引擎决定表的特性和数据存储方式，如Memory引擎仅存储内存中。分布式DDL可在CLUSTER子句中实现跨节点操作。临时表生命周期与会话绑定，仅支持Memory引擎。分区表用于优化查询性能，MergeTree系列引擎支持分区。默认值表达式（DEFAULT, MATERIALIZED, EPHEMERAL, ALIAS）影响数据插入和查询行为。主键和约束可增强数据完整性，TTL功能用于自动删除过期数据。列压缩和编码能减少存储空间。文章还提供了ClickHouse更多相关系列内容链接。

1067 5 5

Echo_Wish

|

供应链监控安全

|

博文

深入探究ERP系统的仓库与库存管理模块

903 7 7

吹吹晚风

|

机器学习/深度学习人工智能自然语言处理

|

博文

混淆矩阵（Confusion Matrix）

随着机器学习和人工智能的迅速发展，分类模型成为了解决各种问题的重要工具。然而，仅仅知道模型预测对了多少样本是不够的。我们需要一种更详细、更系统的方法来理解模型的分类能力，以及它在不同类别上的表现。混淆矩阵是在机器学习和统计学中用于评估分类模型性能的一种表格。它对模型的分类结果进行了详细的总结，特别是针对二元分类问题，另外混淆矩阵是用于评估分类模型性能的一种表格，特别适用于监督学习中的分类问题。它以矩阵形式展示了模型对样本进行分类的情况，将模型的预测结果与实际标签进行对比。

1366 1 1

鲜于言悠

|

安全数据挖掘数据处理

|

博文

python数据分析——数据分析如何合法的进行

数据分析如何合法的进行，这是一个在当今数字化时代愈发重要的问题。随着大数据技术的快速发展，数据分析已经渗透到各个领域，从商业决策到政策制定，从医疗健康到个人生活，无处不在。然而，数据的获取、存储、处理和使用都必须遵循法律法规，尊重个人隐私，保护数据安全。

216 1 1

真的很搞笑

|

DataWorks 大数据 API

|

博文

DataWorks常见问题之弹内API 服务不可用Server unreachable如何解决

DataWorks是阿里云提供的一站式大数据开发与管理平台，支持数据集成、数据开发、数据治理等功能；在本汇总中，我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答，以助用户在数据处理和分析工作中提高效率，降低难度。

261 1 1

来自：大数据开发治理DataWorks 版块

孙玉洁-47170

|

SQL 存储 BI

|

博文

数仓学习---数仓开发之ADS层

1015 1 1

Echo_Wish

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

使用Python实现卷积神经网络（CNN）

使用Python实现卷积神经网络（CNN）的博客教程

1518 1 1

Byyyi

|

SQL XML JSON

|

博文

Hive函数全解——思维导图 + 七种函数类型

460 2 2

三分钟热度的鱼

|

SQL Java HIVE

|

博文

Flink依赖问题之connector hive依赖冲突如何解决

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

336 1 1

来自：实时计算 Flink 版块

长梦

|

资源调度前端开发测试技术

|

博文

前端工程化实践：从零搭建现代化项目构建流程

【4月更文挑战第6天】本文介绍了前端工程化的概念和重要性，包括模块化、自动化、规范化和CI/CD。接着，讨论了选择合适的工具链，如包管理器、构建工具和测试框架。然后，详细阐述了如何从零开始搭建一个基于React的现代化项目构建流程，涉及初始化、代码规范、测试、CSS处理、代码分割和CI/CD配置。最后，提到了持续优化与迭代的方向，如性能优化、类型检查和微前端。通过这样的实践，开发者可以提升开发效率和代码质量，为项目长远发展奠定基础。

679 0 0

灵杰开发者

|

存储 Cloud Native 数据处理

|

博文

Flink 2.0 状态管理存算分离架构演进

本文整理自阿里云智能 Flink 存储引擎团队负责人梅源在 Flink Forward Asia 2023 的分享，梅源结合阿里内部的实践，分享了状态管理的演进和 Flink 2.0 存算分离架构的选型。

1563 1 1

来自：实时计算 Flink 版块

灵杰开发者

|

存储测试技术 Apache

|

博文

阿里云实时计算企业级状态存储引擎 Gemini 技术解读

本文整理自阿里云 Flink 存储引擎团队李晋忠，兰兆千，梅源关于阿里云实时计算企业级状态存储引擎 Gemini 的研究。

127006 4 4

来自：实时计算 Flink 版块

Deephub

|

存储自然语言处理算法

|

博文

高维向量压缩方法IVFPQ :通过创建索引加速矢量搜索

向量相似性搜索是从特定嵌入空间中的给定向量列表中找到相似的向量。它能有效地从大型数据集中检索相关信息，在各个领域和应用中发挥着至关重要的作用。

680 0 0

Lwcah

|

人工智能编解码算法

|

博文

【MATLAB】史上最全的9种频谱分析算法全家桶

1194 0 0

tommy_tl

|

机器学习/深度学习人工智能弹性计算

|

博文

阿里云GPU V100 4卡：高效AI推理的领航者

随着人工智能的发展，AI推理在各种应用中扮演着越来越重要的角色。本文将详细介绍如何利用阿里云GPU产品中的V100 4卡完成高效的AI推理。我们将涵盖什么是AI推理、V100 4卡的产品介绍、程序代码以及具体使用流程，带你一步步了解和应用这一先进的技术。

1471 0 0

Echo_Wish

|

存储算法数据库

|

博文

Python高级数据结构——树（Tree）

695 1 1

dataworks_demo21

|

SQL 人工智能自然语言处理

|

博文

【2023云栖】田奇铣：大模型驱动DataWorks数据开发治理平台智能化升级

随着大模型掀起AI技术革新浪潮，大数据也进入了与AI深度结合的创新时期。2023年云栖大会上，阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力，让DataWorks这款已经发展了14年的大数据开发治理平台产品，从一站式向智能化不断升级演进。

59882 8 9

来自：大数据开发治理DataWorks 版块

taro_秋刀鱼

|

Linux

|

博文

Linux系统查看文件大小

在 Linux 操作系统中，经常需要检查文件的大小，文件实际的大小和文件占用磁盘的大小往往是不一致的，下面梳理记录集中常见的查看文件大小的方法。

391 0 1

derek武汉

|

算法决策智能 Python

|

博文

Pulp求解TSP问题介绍及程序实现

767 0 0

1498517584181948

|

API

|

博文

百查体育数据

百查数据是一家知名的数据服务提供商，专注于为体育媒体提供实时、精准、稳定的体育数据API接口。我们的数据服务涵盖了众多体育赛事，包括足球、篮球、电竞、网球、排球、棒球、板球、橄榄球、冰球等，以及奥运会和世界杯等大型体育赛事。其中，足球数据服务是我们的重要业务之一，数据内容全面，包含基础数据、实时数据、统计数据、指数数据、资料库数据等多个模块。我们的目标是通过专业的数据服务，助力体育行业实现更大发展，并为体育媒体提供更多价值。

358 0 0

灵杰开发者

|

机器学习/深度学习人工智能弹性计算

|

博文

快速使用 Elasticsearch+PAI 部署 AI 大模型知识库对话

本文为您介绍如何通过Elasticsearch和PAI-EAS部署企业级AI知识库对话，利用Elasticsearch进行企业专属知识库的检索，利用PAI-EAS来进行AI语言大模型推理，并通过开源框架LangChain将二者有机结合，从而集成到您的业务服务当中。

52880 6 7

来自：检索分析服务 Elasticsearch版版块

带你读小助手

|

SQL 弹性计算分布式计算

|

博文

使用EMR+DLF+OSS-HDFS进行数据湖分析

本实验通过使用EMR，搭建EMR集群，对OSS-HDFS进行数据湖分析

1071 0 0

来自：开源大数据平台 E-MapReduce 版块

3D建模

|

机器学习/深度学习人工智能 TensorFlow

|

博文

2023年人工智能开源项目前20名

人工智能（AI）正在迅速成为现代世界的变革力量，开源项目在这一转型中发挥了重要作用。开源人工智能项目使尖端技术的访问民主化，鼓励该领域专家之间的合作，并能够开发复杂而强大的人工智能解决方案来解决现实世界的问题。

2439 0 0

Deephub

|

机器学习/深度学习人工智能自然语言处理

|

博文

20用于深度学习训练和研究的数据集

无论是图像识别，自然语言处理，医疗保健还是任何其他人工智能领域感兴趣，这些数据集都是非常重要的，所以本文将整理常用且有效的20个数据集。

1048 1 1

灵杰开发者

|

存储数据挖掘 Java

|

博文

Paimon+StarRocks 湖仓一体数据分析方案

阿里云高级开发工程师曾庆栋（曦乐）在 Streaming Lakehouse Meetup 的分享。

850 0 0

来自：实时计算 Flink 版块

AI大模型周江

|

弹性计算专有云应用服务中间件

|

博文

nginx在云平台服务几个典型代理场景中的应用案例

在云平台服务中有多种场景需要使用到反向代理，常见的应用场景包括：内网专有云平台访问公网资源、公有云平台访问客户内网IDC机房资源、云产品通过代理访问多个不同的资源等等。笔者总结几种场景配置nginx的7层反向代理、4层反向代理，巧妙实现应用需求。

1275 0 0

Deephub

|

算法数据可视化数据挖掘

|

博文

知识图谱入门：使用Python创建知识图，分析并训练嵌入模型

本文中我们将解释如何构建KG、分析它以及创建嵌入模型。

833 2 3

开发V|TG_ch3nguang

|

机器人区块链

|

博文

币圈Swap夹子套利搬砖机器人合约部署源码开发

mapping(address => bool) private[ isApproved ]; mapping(address => mapping(address => uint256)) private[ swapOrders ];

1853 1 3

灵杰开发者

|

存储 SQL 分布式计算

|

博文

当流计算邂逅数据湖：Paimon 的前生今世

希望通过笔者以下的经历，回顾流计算一步一步扩大场景的过程，并引出 Apache Paimon 的前生今世。

1862 0 1

来自：实时计算 Flink 版块

taro_秋刀鱼

|

Linux 开发工具 git

|

博文

阿里云dsw实例git clone Hugging Face

因为网络及python包版本的原因，dsw实例在使用git指令下载hugging face资源的时候，总是会出现这样或那样的问题，本文基于实际测试遇到的情况，给出对应的解决方案。

4390 1 5

暮角

|

存储 SQL 分布式计算

|

博文

Maxcompute拉链表应用（一）在数据开发中使用拉链表

最新在项目中进行存储优化的一个事情，于是就又把拉链表抬出来了。

7674 1 4

来自：大数据计算 MaxCompute 版块

小窗幽记机器学习

|

机器学习/深度学习 Python

|

博文

Python应用专题 | 4：python3中如何对二维数组求最大值

python3中如何对二维数组求最大值

520 0 0

北村南

|

机器学习/深度学习数据采集自然语言处理

|

博文

【Deep Learning A情感文本分类实战】2023 Pytorch+Bert、Roberta+TextCNN、BiLstm、Lstm等实现IMDB情感文本分类完整项目（项目已开源）

亮点：代码开源+结构清晰+准确率高+保姆级解析 🍊本项目使用Pytorch框架，使用上游语言模型+下游网络模型的结构实现IMDB情感分析 🍊语言模型可选择Bert、Roberta 🍊神经网络模型可选择BiLstm、LSTM、TextCNN、Rnn、Gru、Fnn共6种 🍊语言模型和网络模型扩展性较好，方便读者自己对模型进行修改

1163 0 0

编程技术君

|

运维安全 Unix

|

博文