DataWorks常见问题之删除odps中表的历史分区失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一
阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。
新一代实时数据集成框架 Flink CDC 3.0 —— 核心技术架构解析
本文整理自阿里云开源大数据平台吕宴全关于新一代实时数据集成框架 Flink CDC 3.0 的核心技术架构解析。
快速实践: 通过 Flink CDC 一键整库同步 MongoDB 到 Paimon
Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。
福利「Flink Forward Asia 2023 」视频合集!
2023 年 12 月 9 日,Flink Forward Asia 2023 在北京圆满结束。本届大会共有 70+ 演讲议题、30+ 一线大厂技术与实践分享。现所有专场回放视频已经出炉,并在开发者社区上线。
【EMNLP 2023】面向垂直领域的知识预训练语言模型
近日,阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性,发现在垂直领域的图谱结构具有全局稀疏,局部稠密的特点。为了补足全局稀疏特点,将垂直领域中分层语义信息通过双曲空间注入到预训练模型中。为了利用局部图结构稠密特点,我们利用对比学习构造图结构不同难度的正负样本来进一步加强语义稀疏的问题。
通义千问开源模型在PAI灵骏的最佳实践
本文将展示如何基于阿里云PAI灵骏智算服务,在通义千问开源模型之上进行高效分布式继续预训练、指令微调、模型离线推理验证以及在线服务部署。
浅谈RISC-V指令集的基本指令格式和立即数操作
在以前的文章中,我分享了RISC-V在设计的初衷,除了可以被通用软件开发使用之外,还有一个目的就是,可以支持更多定制化的设计。也就是说,用户可以在基本指令集上面,进行一个或者多个的指令集扩展操作,但是有一个条件,不能再重新定义基本指令集。也就是说,任何一款基于RISC-V指令集的处理器,都要能够支撑整数基本指令集。可以看出基本指令集的重要性。
Python的reshape的用法:reshape(1,-1)、reshape(-1,1)
Python的reshape的用法:reshape(1,-1)、reshape(-1,1)
2023年13个面向初学者最佳免费3D建模软件
现在有数百种不同的免费 3D 建模软件工具供希望创建自己的 3D 模型的用户使用——因此知道从哪里开始可能会很棘手。 3D 软件建模工具的范围从即使是最新的初学者也易于使用到可能需要数年才能学习的专业级软件——因此选择与您的技能水平相匹配的工具非常重要。
MaxCompute ODPS 重装上阵,QUALIFY
MaxCompute支持QUALIFY语法过滤Window函数的结果,使得查询语句更简洁易理解。Window函数和QUALIFY语法之间的关系可以类比聚合函数+GROUP BY语法和HAVING语法。
模型推理加速系列 | 03:Pytorch模型量化实践并以ResNet18模型量化为例(附代码)
本文主要简要介绍Pytorch模型量化相关,并以ResNet18模型为例进行量化实践。
数字孪生核心技术揭秘(一):渲染引擎
从2017年“数字孪生城市”概念走红开始,全国各地“数字孪生城市”如雨后春笋般涌现,迅速推动了整个行业快速发展。与此同时,整个“数字孪生城市”产业链路上的技术瓶颈开始显现,尤其是数字孪生城市构建的核心环节之一的三维渲染引擎已经成为制约数字孪生城市项目正真实战落地的核心痛点。
阿里云大数据助力知衣科技打造AI服装行业核心竞争力
杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。
阿里云EMR Remote Shuffle Service在小米的实践,以及开源
阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施,与此同时RSS也在跟合作方小米的共建下不断演进。本文将介绍RSS的最新架构,在小米的实践,以及开源。
Apache Flink CDC 批流融合技术原理分析
以 Flink SQL 案例来介绍 Flink CDC 2.0 的使用,并解读 CDC 中的核心设计。
MaxCompute中如何通过logview诊断慢作业
MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务,在MaxCompute执行sql任务的时候有时候作业会很慢,本文通过查看logview排查具体任务慢的原因
安装 Kibana(本地及 Docker)- Elastic Stack 实战手册
Kibana 是一个基于 Nodejs 构建出来的前端项目,它本身不包含数据存储功能,所以需要配合一个 Elasticsearch 节点/集群一起进行使用。本节将从系统环境的选择,必须的基础应用的安装等方面进行阐述。
MaxCompute产品消费相关文章合集
MaxCompute (原odps)是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入。MaxCompute支持多种经典计算模型(批处理、机器学习、交互式分析等)和完善的企业管理功能,借助MaxCompute,用户可轻松集成和管理企业数据资产,简化数据平台架构,加速价值实现。
网易:Flink + Iceberg 数据湖探索与实践
今天主要和大家交流的是网易在数据湖 Iceberg 的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据湖 Iceberg 的探索以及实践之路。
Flink SQL 1.11 新功能与最佳实践
旨在帮助用户快速了解新版本 Table & SQL 在 Connectivity 和 Simplicity 等方面的优化及实际开发使用的最佳实践。
首次揭秘!春晚活动下快手实时链路保障实践
本文由快手开发工程师刘建刚分享,主要介绍春晚活动下快手实时链路保障实践。内容主要包含以下四部分:快手 Flink 简介、春晚实时保障方案、春晚实时大屏、未来规划。
【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍,本文探讨了一种数据管理架构,该架构可以在数据到达时,通过主动监控和分析来检测流式数据中损坏或不良的数据,并且不会造成瓶颈。
【最佳实践】如何运用DataWorks数据同步功能,将Hadoop数据同步到阿里云Elasticsearch上
如何通过DataWorks数据同步功能,将Hadoop数据同步到阿里云Elasticsearch上,并进行搜索分析。
阿里云智能推荐AIRec产品介绍
本文中,来自阿里云搜索推荐技术团队的三秋为大家介绍了阿里云智能推荐AIRec产品的技术架构、核心功能,并与大家分享了使用阿里云智能推荐AIRec的实际案例以及技术场景。
基于Flink和规则引擎的实时风控解决方案
对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。
用Flink取代Spark Streaming!知乎实时数仓架构演进
- 实时数仓 1.0 版本,主题:ETL 逻辑实时化,技术方案:Spark Streaming。 - 实时数仓 2.0 版本,主题:数据分层,指标计算实时化,技术方案:Flink Streaming。 - 实时数仓未来展望:Streaming SQL 平台化,元信息管理系统化,结果验收自动化。
广告场景下的实时计算
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 广告场景的综述,[计算广告与流处理技术综述](https://yq.aliyun.com/articles/691816): 在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等 其中涉及的主要实时处理环节: 实时数据统计.
MaxCompute安全管理指南-基础篇
背景及目的 方便和辅助MaxCompute的project owner或安全管理员进行project的日常安全运维,保障数据安全。 MaxCompute有安全模型,DataWorks也有安全模型,当通过DataWorks使用MaxCompute,而DataWorks的安全模型不满足业务安全需求时,合理的将两个安全模型结合使用就尤其重要。
实时计算 Flink SQL 核心功能解密
Flink SQL 是于2017年7月开始面向集团开放流计算服务的。虽然是一个非常年轻的产品,但是到双11期间已经支撑了数千个作业,在双11期间,Blink 作业的处理峰值达到了5+亿每秒,而其中仅 Flink SQL 作业的处理总峰值就达到了3亿/秒。
阿里集团搜索中台TisPlus
阿里集团搜索中台TisPlus 搜索中台的发展 从阿里很多技术产品的发展路径来看都遵循着技术驱动、产品驱动、数据驱动三个阶段,那阿里巴巴的搜索技术的发展也基本基于上述的发展路径。
MaxComputeSql性能调优
转载自xiaorui 部分用户(尤其对外输出)使用MaxCompute(原Odps)时,由于对产品的使用层面和执行层面了解程度不同,导致提交的任务执行时间过长、占用了较多集群资源;严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。 合并整理部分性能提升方法方
技术对比!为什么taocarts能成为反向海淘与代购系统的首选?
当前代购系统、反向海淘系统市场鱼龙混杂,既有开源的代购系统源码、廉价的代购网站模板,也有专业的代购系统服务商、定制化解决方案,比如海鸥代购系统、各类开源代购系统等,但很多从业者在选择时容易陷入“贪便宜、踩坑”的困境——要么系统功能不完善,无法满足核心需求;要么技术不稳定,经常出现卡顿、数据丢失;要么售后无保障,出现问题无法及时解决。而taocarts作为行业内口碑较好的代购系统服务商,凭借其领先的技术能力、完善的功能矩阵、优质的售后服务,成为众多从业者的首选,今天就从技术层面做对比,帮大家搞懂taocarts的核心优势。
AI赋能跨境代购!taocarts智能选品+自动翻译+风控,降本增效新路径(附AI代码)
随着反向海淘行业的竞争加剧,“效率提升”成为代购从业者的核心诉求——人工选品耗时耗力、多语言翻译不精准、虚假订单欺诈等问题,严重制约行业规模化发展。taocarts跨境独立站系统融入AI技术,结合React、Laravel框架,实现AI智能选品、自动翻译、交易风控三大核心功能,依托阿里云AI服务,为代购从业者提供智能化解决方案,从技术层面实现降本增效,以下从AI技术实现、功能落地等角度,为阿里云社区开发者提供干货分享。
深度解析:数据采集场景下的 Java 代理技术实战
本文深入解析Java爬虫中HTTP代理的核心技术,涵盖全局/局部代理配置、连接池复用与路由绑定、IP保持与动态切换(Proxy-Tunnel/Connection: Close)、HTTPS隧道认证(407排障)及生产级代码实践,助力高效稳定数据采集。
国内电商平台商品详情API返回数据Python模型格式
本接口服务支持淘宝、京东、1688三大平台商品详情数据获取,返回标准化Python字典,涵盖标题、价格、库存、图片、SKU、规格、评价等核心字段,含OAuth2.0/签名认证、调用示例及统一解析函数,助力电商数据高效对接。
JD商品评价核心是用官方 API 拉取全量评论
京东商品评价API+AI方案:依托官方接口全量采集评论,结合NLP/大模型实现情感分析、痛点识别、智能摘要与风险预警,覆盖口碑监控、舆情风控、竞品分析等场景,开箱即用,助力品牌从被动响应转向主动决策。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。