2024-05-15
118093

Paimon 与 Spark 的集成(二):查询优化

通过一系列优化,我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%,已基本和 Parquet x Spark 持平,本文对其中的关键优化点进行了详细介绍。

118,093
2024-06-24
55592

解锁分布式云多集群统一监控的云上最佳实践

为应对分布式云多集群监控的挑战,阿里云可观测监控 Prometheus 版结合 ACK One,凭借高效纳管与全局监控方案有效破解了用户在该场景的监控运维痛点,为日益增长的业务需求提供了一站式、高效、统一的监控解决方案,实现成本与运维效率的双重优化。助力企业的数字化转型与业务快速增长,在复杂多变的云原生时代中航行,提供了一个强有力的罗盘与风帆。

55,592
2024-07-18
7600

流量回放新形态:基于网关 Access Log 发起

流量回放技术在性能测试和故障排除中至关重要。传统工具如 GoReplay、Tcpreplay 等存在高权限、配置复杂、登录态失效等痛点。PTS 推出基于 Access Log 的流量回放功能,自动生成压测场景,解决传统工具痛点,操作简单,一起来了解下吧~

7,600
2024-08-27
108

面向AI场景的数据处理和数据检索

本文分享了AI场景下面临的数据处理与检索挑战及解决方案。AI内容生产涉及数据准备、模型训练、推理及应用四大环节,其中数据准备环节面临数据来源复杂、格式多样及数据量激增的挑战,模型训练环节需解决推理准确性问题,AI应用环节则需克服接口兼容性难题。 为应对这些挑战,阿里云存储OSS与智能媒体管理IMM提供百余种数据处理能力,并升级数据索引功能支持向量检索,助力构建多模态检索应用。此外,还介绍了Serverless数据处理方案,可日均处理百亿级别文件,通过OSS数据索引能力,客户能快速构建RAG检索增强,同时实现多模态检索的搭建,显著提升AI应用的效能和用户体验。

108
8173

基于RAG搭建企业级知识库在线问答

本文介绍如何使用搜索开发工作台快速搭建基于RAG开发链路的知识库问答应用。

2024-08-21
600

用好通义灵码,让这款 AI 编码助手帮你做更多工作

通义灵码提供了一系列快捷键和配置选项以增强开发体验。

2023-11-09
435

Dataphin实时研发实践—电商场景下的实时数据大屏构建

实时数据大屏是实时计算的重要应用场景之一,广泛应用在电商业务中,用于实时监控和分析电商平台的运营情况。通过大屏展示实时的销售额、订单量、用户活跃度、商品热度等数据指标,帮助业务人员随时了解业务的实时状态,快速发现问题和机会。同时,通过数据可视化和趋势分析,大屏也提供了决策支持和优化运营的功能,帮助业务人员做出及时的决策和调整策略,优化电商业务的运营效果。 下面以电商业务为背景,介绍如何构建经典实时数仓,实现实时数据从业务库到ODS层、DWD层、DWS层全链路流转,基于Dataphin和Quick BI实现实时数据大屏。

435
2024-05-15
205

联合XTuner,魔搭社区全面支持数据集的长文本训练

XTuner和魔搭社区(SWIFT)合作引入了一项长序列文本训练技术,该技术能够在多GPU环境中将长序列文本数据分割并分配给不同GPU,从而减少每个GPU上的显存占用。通过这种方式,训练超大规模模型时可以处理更长的序列,提高训练效率。魔搭社区的SWIFT框架已经集成了这一技术,支持多种大模型和数据集的训练。此外,SWIFT还提供了一个用户友好的界面,方便用户进行训练和部署,并且支持评估功能。

森马基于MaxCompute+Hologres+DataWorks构建数据中台

本次案例主要分享森马集团面对多年自建的多套数仓产品体系,通过阿里云MaxCompute+Hologres+DataWorks统一数仓平台,保障数据生产稳定性与数据质量,减少ETL链路及计算时间,每年数仓整体费用从300多万降到180万。

1
...
7
8
9
...
30
到第
8/30