大数据与机器学习-博文-第42页-阿里云开发者社区

三分钟热度的鱼

|

分布式计算 DataWorks 关系型数据库

|

博文

DataWorks常见问题之删除odps中表的历史分区失败如何解决

DataWorks是阿里云提供的一站式大数据开发与管理平台，支持数据集成、数据开发、数据治理等功能；在本汇总中，我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答，以助用户在数据处理和分析工作中提高效率，降低难度。

476 0 0

来自：大数据开发治理DataWorks 版块

灵杰开发者

|

数据采集 SQL 自然语言处理

|

博文

阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一

阿里云OpenSearch引擎通过Dense和Sparse混合检索技术，在中文Embedding模型C-MTEB榜单上拿到第一名，超越Baichuan和众多开源模型，尤其在Retrieval任务上大幅提升。

2989 4 4

来自：智能搜索推荐版块

灵杰开发者

|

SQL API 数据处理

|

博文

新一代实时数据集成框架 Flink CDC 3.0 —— 核心技术架构解析

本文整理自阿里云开源大数据平台吕宴全关于新一代实时数据集成框架 Flink CDC 3.0 的核心技术架构解析。

2029 0 0

来自：实时计算 Flink 版块

云梦泽123

|

博文

python-min()函数

375 0 0

灵杰开发者

|

SQL 分布式计算 NoSQL

|

博文

快速实践: 通过 Flink CDC 一键整库同步 MongoDB 到 Paimon

Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。

77895 4 6

来自：实时计算 Flink 版块

灵杰开发者

|

机器学习/深度学习人工智能 Cloud Native

|

博文

福利「Flink Forward Asia 2023 」视频合集！

2023 年 12 月 9 日，Flink Forward Asia 2023 在北京圆满结束。本届大会共有 70+ 演讲议题、30+ 一线大厂技术与实践分享。现所有专场回放视频已经出炉，并在开发者社区上线。

6782 2 3

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

人工智能自然语言处理算法

|

博文

近日，阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性，发现在垂直领域的图谱结构具有全局稀疏，局部稠密的特点。为了补足全局稀疏特点，将垂直领域中分层语义信息通过双曲空间注入到预训练模型中。为了利用局部图结构稠密特点，我们利用对比学习构造图结构不同难度的正负样本来进一步加强语义稀疏的问题。

1085 6 6

来自：人工智能平台PAI 版块

阿里云大数据Al技术

|

JSON 自然语言处理对象存储

|

博文

通义千问开源模型在PAI灵骏的最佳实践

本文将展示如何基于阿里云PAI灵骏智算服务，在通义千问开源模型之上进行高效分布式继续预训练、指令微调、模型离线推理验证以及在线服务部署。

64601 7 9

来自：人工智能平台PAI 版块

一颗小树x

|

传感器计算机视觉

|

博文

【论文解读】单目3D目标检测 DD3D（ICCV 2021）

本文分享单目3D目标检测，DD3D 模型的论文解读，了解它的设计思路，论文核心观点，模型结构，以及效果和性能。

1628 1 2

一颗小树x

|

传感器算法机器人

|

博文

基于 IMU 的位姿解算

解算 IMU 采样数据的过程与惯导解算技术原理有关，而提高定位精度的方法主要依赖于IMU自身精度的提高和算法改进。

2826 0 0

leeseng

|

博文

浅谈RISC-V指令集的基本指令格式和立即数操作

在以前的文章中，我分享了RISC-V在设计的初衷，除了可以被通用软件开发使用之外，还有一个目的就是，可以支持更多定制化的设计。也就是说，用户可以在基本指令集上面，进行一个或者多个的指令集扩展操作，但是有一个条件，不能再重新定义基本指令集。也就是说，任何一款基于RISC-V指令集的处理器，都要能够支撑整数基本指令集。可以看出基本指令集的重要性。

2083 0 0

theMilkyWay`

|

缓存开发工具 Python

|

博文

jupyter notebook主题(界面优化)及代码自动补全

1362 0 0

theMilkyWay`

|

Python

|

博文

Python的reshape的用法：reshape(1,-1)、reshape(-1,1)

1656 0 0

derek武汉

|

算法 Java 决策智能

|

博文

运筹优化工具库介绍（一）

运筹优化问题有时候极其复杂，我们可以使用运筹优化工具库帮助数学建模，解决复杂的最优化问题，本文介绍几个常见的运筹优化工具库。

2875 0 0

3D建模

|

vr&ar 图形学数据安全/隐私保护

|

博文

2023年13个面向初学者最佳免费3D建模软件

现在有数百种不同的免费 3D 建模软件工具供希望创建自己的 3D 模型的用户使用——因此知道从哪里开始可能会很棘手。 3D 软件建模工具的范围从即使是最新的初学者也易于使用到可能需要数年才能学习的专业级软件——因此选择与您的技能水平相匹配的工具非常重要。

2962 0 0

海清

|

SQL 分布式计算大数据

|

博文

MaxCompute ODPS 重装上阵，QUALIFY

MaxCompute支持QUALIFY语法过滤Window函数的结果，使得查询语句更简洁易理解。Window函数和QUALIFY语法之间的关系可以类比聚合函数+GROUP BY语法和HAVING语法。

887 0 0

来自：大数据计算 MaxCompute 版块

小窗幽记机器学习

|

机器学习/深度学习存储人工智能

|

博文

模型推理加速系列 | 03：Pytorch模型量化实践并以ResNet18模型量化为例(附代码)

本文主要简要介绍Pytorch模型量化相关，并以ResNet18模型为例进行量化实践。

4140 0 0

北村南

|

算法 Linux 调度

|

博文

【操作系统--CPU调度算法】Linux环境中C语言详解（附代码）

操作系统之CPU调度算法，使用C语言实现，可运行在linux环境中

1032 0 0

扬流

|

SQL 分布式计算运维

|

博文

面向未来的开源 OLAP 技术架构探讨以及选型实践

本文详细介绍了开源大数据OLAP的演化过程和最佳实践。

10752 57 59

来自：开源大数据平台 E-MapReduce 版块

May-Hologres

|

存储 SQL 弹性计算

|

博文

实时数仓Hologres新一代弹性计算组实例技术揭秘

3181 57 59

来自：实时数仓 Hologres 版块

阿里云实时计算Flink

|

SQL 运维供应链

|

博文

上云节省 35%计算资源，420 个运维人天：运满满实时计算实践和思考

满帮实时数据团队 TL 欧锐，在 FFA 2022 行业案例专场的分享。

1560 0 0

来自：实时计算 Flink 版块

guoweish

|

数据可视化算法 JavaScript

|

博文

数字孪生核心技术揭秘（一）：渲染引擎

从2017年“数字孪生城市”概念走红开始，全国各地“数字孪生城市”如雨后春笋般涌现，迅速推动了整个行业快速发展。与此同时，整个“数字孪生城市”产业链路上的技术瓶颈开始显现，尤其是数字孪生城市构建的核心环节之一的三维渲染引擎已经成为制约数字孪生城市项目正真实战落地的核心痛点。

8107 4 6

来自：数据可视化DataV 版块

dataworks_demo21

|

运维分布式计算 DataWorks

|

博文

阿里云大数据助力知衣科技打造AI服装行业核心竞争力

杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业，致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出，打造智能化服装设计的供应链平台。

3269 0 1

来自：大数据开发治理DataWorks 版块

bean_stalk

|

存储 SQL 缓存

|

博文

阿里云EMR Remote Shuffle Service在小米的实践，以及开源

阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来，帮助了诸多客户解决Spark作业的性能、稳定性问题，并使得存算分离架构得以实施，与此同时RSS也在跟合作方小米的共建下不断演进。本文将介绍RSS的最新架构，在小米的实践，以及开源。

4588 0 2

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 存储关系型数据库

|

博文

Apache Flink CDC 批流融合技术原理分析

以 Flink SQL 案例来介绍 Flink CDC 2.0 的使用，并解读 CDC 中的核心设计。

2536 0 2

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 存储 Java

|

博文

Flink 1.14 新特性预览

一文了解 Flink 1.14 版本新特性及最新进展

4695 0 1

来自：实时计算 Flink 版块

龙青云

|

SQL 资源调度分布式计算

|

博文

MaxCompute中如何通过logview诊断慢作业

MaxCompute致力于批量结构化数据的存储和计算，提供海量数据仓库的解决方案及分析建模服务，在MaxCompute执行sql任务的时候有时候作业会很慢，本文通过查看logview排查具体任务慢的原因

5369 0 0

来自：大数据计算 MaxCompute 版块

工程师甲

|

安全 Unix Linux

|

博文

安装 Kibana（本地及 Docker）- Elastic Stack 实战手册

Kibana 是一个基于 Nodejs 构建出来的前端项目，它本身不包含数据存储功能，所以需要配合一个 Elasticsearch 节点/集群一起进行使用。本节将从系统环境的选择，必须的基础应用的安装等方面进行阐述。

5481 0 0

来自：检索分析服务 Elasticsearch版版块

亢海鹏

|

SQL 存储分布式计算

|

博文

MaxCompute产品消费相关文章合集

MaxCompute （原odps）是面向分析的企业级SaaS模式云数据仓库，以Serverless架构提供全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入。MaxCompute支持多种经典计算模型（批处理、机器学习、交互式分析等）和完善的企业管理功能，借助MaxCompute，用户可轻松集成和管理企业数据资产，简化数据平台架构，加速价值实现。

1055 0 0

来自：大数据计算 MaxCompute 版块

dataworks_demo21

|

DataWorks 分布式计算 MaxCompute

|

博文

DataWorks OpenAPI 示例（元数据模块）

DataWorks OpenAPI 示例

5972 0 0

来自：大数据开发治理DataWorks 版块

May-Hologres

|

存储 SQL 分布式计算

|

博文

首次公开！阿里巴巴云原生实时数仓核心技术揭秘

揭秘Hologres的核心技术优势

20635 2 3

来自：实时数仓 Hologres 版块

阿里云实时计算Flink

|

存储 SQL 消息中间件

|

博文

网易：Flink + Iceberg 数据湖探索与实践

今天主要和大家交流的是网易在数据湖 Iceberg 的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖 Iceberg 的探索以及实践之路。

20582 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 消息中间件关系型数据库

|

博文

Flink SQL 1.11 新功能与最佳实践

旨在帮助用户快速了解新版本 Table & SQL 在 Connectivity 和 Simplicity 等方面的优化及实际开发使用的最佳实践。

8569 0 1

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 消息中间件资源调度

|

博文

首次揭秘！春晚活动下快手实时链路保障实践

本文由快手开发工程师刘建刚分享，主要介绍春晚活动下快手实时链路保障实践。内容主要包含以下四部分：快手 Flink 简介、春晚实时保障方案、春晚实时大屏、未来规划。

1791 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

数据采集消息中间件存储

|

博文

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍，本文探讨了一种数据管理架构，该架构可以在数据到达时，通过主动监控和分析来检测流式数据中损坏或不良的数据，并且不会造成瓶颈。

2954 0 0

来自：开源大数据平台 E-MapReduce 版块

工程师甲

|

分布式计算 Hadoop DataWorks

|

博文

【最佳实践】如何运用DataWorks数据同步功能，将Hadoop数据同步到阿里云Elasticsearch上

如何通过DataWorks数据同步功能，将Hadoop数据同步到阿里云Elasticsearch上，并进行搜索分析。

7452 0 2

来自：检索分析服务 Elasticsearch版版块

勖勉

|

搜索推荐分布式计算 MaxCompute

|

博文

阿里云智能推荐AIRec产品介绍

本文中，来自阿里云搜索推荐技术团队的三秋为大家介绍了阿里云智能推荐AIRec产品的技术架构、核心功能，并与大家分享了使用阿里云智能推荐AIRec的实际案例以及技术场景。

6530 2 4

来自：大数据计算 MaxCompute 版块

付空

|

流计算 NoSQL Redis

|

博文

基于Flink和规则引擎的实时风控解决方案

对一个互联网产品来说，典型的风控场景包括：注册风控、登陆风控、交易风控、活动风控等，而风控的最佳效果是防患于未然，所以事前事中和事后三种实现方案中，又以事前预警和事中控制最好。这要求风控系统一定要有实时性。

14666 155 164

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

流计算分布式计算消息中间件

|

博文

用Flink取代Spark Streaming！知乎实时数仓架构演进

- 实时数仓 1.0 版本，主题：ETL 逻辑实时化，技术方案：Spark Streaming。 - 实时数仓 2.0 版本，主题：数据分层，指标计算实时化，技术方案：Flink Streaming。 - 实时数仓未来展望：Streaming SQL 平台化，元信息管理系统化，结果验收自动化。

5071 1 1

来自：实时计算 Flink 版块

付空

|

算法搜索推荐流计算

|

博文

广告场景下的实时计算

案例与解决方案汇总页：阿里云实时计算产品案例&解决方案汇总广告场景的综述，[计算广告与流处理技术综述](https://yq.aliyun.com/articles/691816)：在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等其中涉及的主要实时处理环节：实时数据统计.

11551 0 0

来自：实时计算 Flink 版块

海清

|

分布式计算运维 DataWorks

|

博文

MaxCompute安全管理指南-基础篇

背景及目的方便和辅助MaxCompute的project owner或安全管理员进行project的日常安全运维，保障数据安全。 MaxCompute有安全模型，DataWorks也有安全模型，当通过DataWorks使用MaxCompute，而DataWorks的安全模型不满足业务安全需求时，合理的将两个安全模型结合使用就尤其重要。

4816 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL API 双11

|

博文

实时计算 Flink SQL 核心功能解密

Flink SQL 是于2017年7月开始面向集团开放流计算服务的。虽然是一个非常年轻的产品，但是到双11期间已经支撑了数千个作业，在双11期间，Blink 作业的处理峰值达到了5+亿每秒，而其中仅 Flink SQL 作业的处理总峰值就达到了3亿/秒。

20216 1 3

来自：实时计算 Flink 版块

曾安祥仁重

|

机器学习/深度学习算法搜索推荐

|

博文

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

14301 0 3

来自：智能搜索推荐版块

柳明-洪震

|

运维数据可视化算法

|

博文

阿里集团搜索中台TisPlus

阿里集团搜索中台TisPlus 搜索中台的发展从阿里很多技术产品的发展路径来看都遵循着技术驱动、产品驱动、数据驱动三个阶段，那阿里巴巴的搜索技术的发展也基本基于上述的发展路径。

10978 2 3

来自：智能搜索推荐版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

MaxComputeSql性能调优

转载自xiaorui 部分用户(尤其对外输出)使用MaxCompute(原Odps)时，由于对产品的使用层面和执行层面了解程度不同，导致提交的任务执行时间过长、占用了较多集群资源；严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。合并整理部分性能提升方法方

7970 0 1

来自：大数据计算 MaxCompute 版块

s4puj2y4jsam4

|

16天前

|

自然语言处理 Java API

|

博文

技术对比！为什么taocarts能成为反向海淘与代购系统的首选？

当前代购系统、反向海淘系统市场鱼龙混杂，既有开源的代购系统源码、廉价的代购网站模板，也有专业的代购系统服务商、定制化解决方案，比如海鸥代购系统、各类开源代购系统等，但很多从业者在选择时容易陷入“贪便宜、踩坑”的困境——要么系统功能不完善，无法满足核心需求；要么技术不稳定，经常出现卡顿、数据丢失；要么售后无保障，出现问题无法及时解决。而taocarts作为行业内口碑较好的代购系统服务商，凭借其领先的技术能力、完善的功能矩阵、优质的售后服务，成为众多从业者的首选，今天就从技术层面做对比，帮大家搞懂taocarts的核心优势。

85 1 1

s4puj2y4jsam4

|

18天前

|

人工智能自然语言处理前端开发

|

博文

AI赋能跨境代购！taocarts智能选品+自动翻译+风控，降本增效新路径（附AI代码）

随着反向海淘行业的竞争加剧，“效率提升”成为代购从业者的核心诉求——人工选品耗时耗力、多语言翻译不精准、虚假订单欺诈等问题，严重制约行业规模化发展。taocarts跨境独立站系统融入AI技术，结合React、Laravel框架，实现AI智能选品、自动翻译、交易风控三大核心功能，依托阿里云AI服务，为代购从业者提供智能化解决方案，从技术层面实现降本增效，以下从AI技术实现、功能落地等角度，为阿里云社区开发者提供干货分享。

132 4 4

奔跑的数据

|

18天前

|

数据采集网络协议安全

|

博文

深度解析：数据采集场景下的 Java 代理技术实战

本文深入解析Java爬虫中HTTP代理的核心技术，涵盖全局/局部代理配置、连接池复用与路由绑定、IP保持与动态切换（Proxy-Tunnel/Connection: Close）、HTTPS隧道认证（407排障）及生产级代码实践，助力高效稳定数据采集。

115 2 2

游客7q6odlcu3jr5c

|

18天前

|

JSON API 数据格式

|

博文

国内电商平台商品详情API返回数据Python模型格式

本接口服务支持淘宝、京东、1688三大平台商品详情数据获取，返回标准化Python字典，涵盖标题、价格、库存、图片、SKU、规格、评价等核心字段，含OAuth2.0/签名认证、调用示例及统一解析函数，助力电商数据高效对接。

108 1 1

游客7q6odlcu3jr5c

|

27天前

|

数据采集人工智能自然语言处理

|

博文

JD商品评价核心是用官方 API 拉取全量评论

京东商品评价API+AI方案：依托官方接口全量采集评论，结合NLP/大模型实现情感分析、痛点识别、智能摘要与风险预警，覆盖口碑监控、舆情风控、竞品分析等场景，开箱即用，助力品牌从被动响应转向主动决策。

132 3 3

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

DataWorks常见问题之删除odps中表的历史分区失败如何解决

阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一

新一代实时数据集成框架 Flink CDC 3.0 —— 核心技术架构解析

python-min()函数

快速实践: 通过 Flink CDC 一键整库同步 MongoDB 到 Paimon

福利「Flink Forward Asia 2023 」视频合集！

【EMNLP 2023】面向垂直领域的知识预训练语言模型

通义千问开源模型在PAI灵骏的最佳实践

【论文解读】单目3D目标检测 DD3D（ICCV 2021）

基于 IMU 的位姿解算

浅谈RISC-V指令集的基本指令格式和立即数操作

jupyter notebook主题(界面优化)及代码自动补全

Python的reshape的用法：reshape(1,-1)、reshape(-1,1)

运筹优化工具库介绍（一）

2023年13个面向初学者最佳免费3D建模软件

MaxCompute ODPS 重装上阵，QUALIFY

模型推理加速系列 | 03：Pytorch模型量化实践并以ResNet18模型量化为例(附代码)

【操作系统--CPU调度算法】Linux环境中C语言详解（附代码）

面向未来的开源 OLAP 技术架构探讨以及选型实践

实时数仓Hologres新一代弹性计算组实例技术揭秘

上云节省 35%计算资源，420 个运维人天：运满满实时计算实践和思考

数字孪生核心技术揭秘（一）：渲染引擎

阿里云大数据助力知衣科技打造AI服装行业核心竞争力

阿里云EMR Remote Shuffle Service在小米的实践，以及开源

Apache Flink CDC 批流融合技术原理分析

Flink 1.14 新特性预览

MaxCompute中如何通过logview诊断慢作业

安装 Kibana（本地及 Docker）- Elastic Stack 实战手册

MaxCompute产品消费相关文章合集

DataWorks OpenAPI 示例（元数据模块）

首次公开！阿里巴巴云原生实时数仓核心技术揭秘

网易：Flink + Iceberg 数据湖探索与实践

Flink SQL 1.11 新功能与最佳实践

首次揭秘！​春晚活动下快手实时链路保障实践

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

【最佳实践】如何运用DataWorks数据同步功能，将Hadoop数据同步到阿里云Elasticsearch上

阿里云智能推荐AIRec产品介绍

基于Flink和规则引擎的实时风控解决方案

用Flink取代Spark Streaming！知乎实时数仓架构演进

广告场景下的实时计算

MaxCompute安全管理指南-基础篇

实时计算 Flink SQL 核心功能解密

强化学习在电商环境下的若干应用与研究

阿里集团搜索中台TisPlus

MaxComputeSql性能调优

技术对比！为什么taocarts能成为反向海淘与代购系统的首选？

AI赋能跨境代购！taocarts智能选品+自动翻译+风控，降本增效新路径（附AI代码）

深度解析：数据采集场景下的 Java 代理技术实战

国内电商平台商品详情API返回数据Python模型格式

JD商品评价核心是用官方 API 拉取全量评论

大数据与机器学习

活跃用户

相关产品

首次揭秘！春晚活动下快手实时链路保障实践