官方博客-第16页-阿里云开发者社区

  • 2024-12-05
    839

    我的程序突然罢工了|深入探究HSF调用异常,从死锁到活锁的全面分析与解决

    本文详细记录了作者在处理HSF调用异常问题的过程中,从初步怀疑死锁到最终发现并解决活锁问题的全过程。

    839
  • 2025-01-16
    704

    NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关

    NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。

  • 2025-04-28
    715

    StrmVol 存储卷:解锁 K8s 对象存储海量小文件访问性能新高度

    本文介绍了阿里云容器服务(ACK)支持的StrmVol存储卷方案,旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统(如EROFS)结合,StrmVol显著降低了小文件访问延迟,适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销,以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务,模拟分布式图像数据集加载,测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况,详细使用方法可参考官方文档。

  • 2025-04-29
    686

    剑指大规模 AI 可观测,阿里云 Prometheus 2.0 应运而生

    本文介绍了阿里云Prometheus 2.0方案,针对大规模AI系统的可观测性挑战进行全面升级。内容涵盖数据采集、存储、计算、查询及生态整合等维度。 Prometheus 2.0引入自研LoongCollector实现多模态数据采集,采用全新时序存储引擎提升性能,并支持RecordingRule与ScheduleSQL预聚合计算。查询阶段提供跨区域、跨账号的统一查询能力,结合PromQL与SPL语言增强分析功能。此外,该方案已成功应用于阿里云内部AI系统,如百炼、通义千问等大模型全链路监控。未来,阿里云将发布云监控2.0产品,进一步完善智能观测技术栈。

  • 升级JSONB列式存储,Hologres助力淘宝搜索2022双11降本增效

    升级JSONB列式存储,Hologres助力淘宝搜索2022双11降本增效。

  • 2023-04-23
    25781

    慢SQL是如何拖垮数据库的

    本文结合一个实际故障案例出发,分析慢SQL是如何打垮数据库并引发故障的。

    25,781
  • 2023-09-22
    1735

    沉浸式学习PostgreSQL|PolarDB 17: 向量数据库, 通义大模型AI的外脑

    本文所涉及的实验体验的就是怎么建设AI的外脑?向量数据库的核心价值:AI外脑

    1,735
  • 2023-11-09
    1018

    Dataphin实时研发实践—电商场景下的实时数据大屏构建

    实时数据大屏是实时计算的重要应用场景之一,广泛应用在电商业务中,用于实时监控和分析电商平台的运营情况。通过大屏展示实时的销售额、订单量、用户活跃度、商品热度等数据指标,帮助业务人员随时了解业务的实时状态,快速发现问题和机会。同时,通过数据可视化和趋势分析,大屏也提供了决策支持和优化运营的功能,帮助业务人员做出及时的决策和调整策略,优化电商业务的运营效果。 下面以电商业务为背景,介绍如何构建经典实时数仓,实现实时数据从业务库到ODS层、DWD层、DWS层全链路流转,基于Dataphin和Quick BI实现实时数据大屏。

    1,018
  • 1
    ...
    15
    16
    17
    ...
    47
    到第