离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进
阿里云智能研究员 林伟 :阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。
官宣|Apache Flink 1.13.0 正式发布,流处理应用更加简单高效!
Flink 1.13.0 版本让流处理应用的使用像普通应用一样简单和自然,并且让用户可以更好地理解流作业的性能。
算法专家解读 | 开放搜索教育搜题能力和实践
达摩院算法专家--徐光伟(昆卡)聚焦在线教育行业的拍照搜题场景,介绍如何应用开放搜索来构建更高搜索性能及搜题准确率的搜题系统,从而助力在线教育行业客户掌握更高层次用户体验的获客工具。
免费下载!Apache Flink 必知必会电子书, 轻松收获 Flink 生产环境开发技能
“实时计算”不再只是未来趋势,它已经融入到企业生产的各个环节之中。一线开发同学如何掌握大数据极致算力应用,企业如何全面提升数据服务能力?
如何基于大数据及AI平台实现业务系统实时化?
后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。
Elasticsearch 场景化检索及全观测运维介绍
基于Elasticsearch场景化检索及全观测运维解决方案的介绍,内容包括Elasticsearch产品介绍,电商零售分析检索能力与解决方案,以及在线教育全观测运维监控能力与解决方案。
“业务指标”衡量电商搜索引擎的优劣
在电商行业中,无论是2B还是2C,最终的业务目的就是交易成单,众所周知搜索服务旨在让消费者能够更快的定位到自己想要的产品,据统计像淘宝这类综合型电商搜索转化交易占整个交易结果的40%以上,垂直类电商的搜索转化更是占整个交易结果的60%以上,所以搜索在电商中的重要性不言而喻,越是拥有海量sku的电商网站,就越依靠搜索,同时对搜索商品的能力要求也就越高。
一次有趣的Elasticsearch+矩阵变换聚合实践
Elasticsearch 聚合功能非常丰富,性能也相当不错,特别适合实时聚合分析场景,但在二次聚合上也有明显短板。本项目是一个基于日期维度做预处理的技术方案,以下是结合 Elasticsearch 优缺点扬长避短的一次尝试性实战,非常有意思,希望可以带来一些参考,同时欢迎各种讨论。
祝贺!两位 Apache Flink PMC 喜提 Apache Member
目前,国内(华人)近 30 位 Apache Member 中,有 3 位是 Apache Flink 的核心贡献者。他们热爱开源也为开源贡献,不仅积极参与社区与其他 PMC 成员共同规划、主导 Apache Flink 的发展,更活跃在多个开源项目,持续为开源社区做贡献。
日均万亿条数据如何处理?爱奇艺实时计算平台这样做
本文由爱奇艺大数据服务负责人梁建煌分享,介绍爱奇艺如何基于 Apache Flink 技术打造实时计算平台,并通过业务应用案例分享帮助用户了解 Apache Flink 的技术特点及应用场景。
基于外卖评论的舆情风控
目前许多商家都有线上留言或者评论反馈平台,消费者可以在这些平台上通过留言表达自己对于消费商品的反馈。消费者的反馈包括表扬性的正向反馈,也有一些批评性质的负向反馈。商家需要掌握消费者对于产品的整体舆论取向来判断自己的产品质量是否符合消费者需求,同时了解评论内容可以方便商家分析舆论导向,指导下一步产品研发工作。
JindoFS概述:云原生的大数据计算存储分离方案
JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。
如何在 Apache Flink 中使用 Python API?
为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展;Apache Flink Python API 架构及开发环境搭建;Apache Flink Python API 核心算子介绍及应用。
阿里巴巴飞天大数据架构体系与Hadoop生态系统
先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。
使用spark-redis组件访问云数据库Redis
本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis
PyODPS DataFrame 的代码在哪里跑
在使用 PyODPS DataFrame 编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。
YARN ResourceManager重启作业保留机制
YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束
凑单算法——基于Graph Embedding的bundle mining
本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍,实现体验和数据上的双赢。
MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数
MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。
阿里云数加合作伙伴-袋鼠云获A轮融资,成立一年半获三轮投资超亿元
创投市场再次风起。2017年7月,袋鼠云宣布,获得来自戈壁创投主投、元璟资本跟投的A轮融资,相对于当前冷淡的投资市场,此举也再次引发了行业对大数据、云计算技术创新企业的关注。据袋鼠云CEO陈吉平(花名:拖雷)介绍,获得的资金将投入到三个方面:数据智能产品研发、高端数据智能人才的引进和培养、袋鼠云品牌打造和市场推广。
大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《社交数据分析:好友推荐》篇
本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《社交数据分析:好友推荐》篇而准备。主要阐述如何在大数据开发套件中使用MR实现好友推荐。
走近华佗,解析自动化故障处理系统背后的秘密
集群医生华佗是集群自动化故障监测和处理系统,是平台和运维对接的关键系统,它承担了飞天平台自动化故障处理系统的任务。如何能又快又好地发现和解决线上故障呢?本文为您解析自动化故障处理系统背后的秘密。一起来了解华佗是如何提升集群的故障发现、处理的效率和准确性,解放运维人员,提高飞天稳定性和可靠性的 。
nodejs连接mysql
创建config文件夹存放配置,实现解耦。通过.env文件管理数据库连接信息,db.js使用mysql2和dotenv创建连接池并测试连通性,确保应用稳定连接数据库。
1688买家/卖家店铺订单API接口指南
1688店铺订单API提供订单查询、详情获取、状态更新等功能,支持与ERP、CRM系统集成。可按条件筛选订单、获取商品及收货信息,同步发货与物流状态,并进行取消订单等操作。使用时需注意密钥授权、调用频率及异常处理,提升订单管理效率。
实验报告:让AI自动生成采集代码,会踩哪些坑?
本文复盘AI自动生成采集代码的实战效果,梳理出“模拟行为”与“接口调用”两大技术路线。AI在浏览器自动化中表现良好,适合简单场景;但面对加密接口与强反爬时仍需人工介入。最终结论:AI是高效助手,但核心难题仍需工程师掌控。
淘宝天猫API调用指南:获取店铺所有商品数据
淘宝店铺商品API支持通过HTTP POST获取商品数据,返回JSON格式信息。核心接口包括店铺商品列表、分类及促销商品查询,以及商品详情、SKU、图片视频等信息获取,助力商家高效管理商品。
Ansys Electronics 全流程电磁仿真降本增效,附安装包
Ansys Electronics Suite是Ansys推出的电磁仿真与电子系统设计平台,覆盖芯片、组件到系统级的电磁、热、电路及多物理场耦合仿真,广泛应用于5G、汽车、航天等领域,助力工程师优化设计、提升性能,缩短研发周期,降低开发成本。
Elasticsearch 8.17 智能检索升级全攻略
Elasticsearch 作为一款强大的搜索与分析引擎,支持传统检索、AI 搜索(如语义检索、RAG、多模态检索)及智能运维场景,结合阿里云AI搜索开放平台提供一站式解决方案。 本文介绍了最新发布的 Elasticsearch 8.17 检索增强型应用在性能和功能上的特性。同时本文介绍了利用容量规划工具优化资源分配,特别适合 AI 应用和高弹性场景,为用户提供高性能、低成本、易扩展的搜索服务。
闲鱼商品列表API秘籍!轻松获取列表数据
闲鱼商品列表API(Goodfish.item_list)基于RESTful架构,支持GET请求,返回JSON格式数据,可获取商品标题、价格、图片、卖家信息等,适用于电商比价与数据分析,助力开发者高效集成闲鱼商品数据。
【2025云栖大会】AI 搜索引擎如何驱动亿级物流:货拉拉 x 阿里云 Elasticsearch
2025云栖大会 AI搜索与向量化模型专场上,拉拉 Elasticsearch技术负责人——陈敏华先生分享了 Elasticsearch 在全球化高并发业务场景下的深度实践,以及在迁移至阿里云 Elasticsearch Serverless 后的显著收益。货拉拉的案例为业界提供了可复制、可落地的技术范本。
从零到一:淘宝店铺订单API接入全流程指南
淘宝订单API通过订单号获取完整交易数据,支持实时查询买家信息、商品明细及物流状态,适用于订单同步、物流监控与数据分析。采用RESTful设计,JSON格式响应,安全高效,助力电商自动化运营。
RAG 切片利器 LumberChunker 是如何智能地把文档切割成 LLM 爱吃的块
RAG 里的文档应该怎么切割比较好呢?按固定的字符数或词数?按句?按段落?加个重叠窗口?还是 ...
基于springboot的摄影器材租赁回收系统
本系统基于Java、Spring Boot与Vue技术,构建摄影器材租赁回收平台,解决市场不规范、资源浪费等问题。支持在线预约、信用免押、智能评估等功能,提升器材利用率,降低用户成本,推动行业绿色可持续发展。
2025 年小白也能轻松上手的 Java 最新学习路线与实操指南深度剖析
2025年Java最新学习路线与实操指南,涵盖基础语法、JVM调优、Spring Boot 3.x框架、微服务架构及容器化部署,结合实操案例,助你快速掌握企业级Java开发技能。
【清爽加速】Windows 11 Pro 24H2-Emmy精简系统
“清爽加速”Windows 11 Pro 24H2 针对老旧或低配设备,通过精简系统、优化服务与简化装机流程,降低资源占用,提升运行流畅度,兼顾安全性与稳定性,让老设备也能轻松应对日常办公与轻度娱乐需求。
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。
PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型
我们将深入探讨图中断(graph breaks)和多图问题对性能的负面影响,并分析PyTorch模型开发中应当避免的常见错误模式。
WebAssembly 与 Java 结合实操指南 基于最新工具链的跨语言开发实践教程
WebAssembly与Java集成实操指南 本文基于2024年最新工具链(GraalVM、TeaVM、Wasmtime),提供两种Java与Wasm结合的实践方案: Java调用Wasm模块:通过Rust编写高性能加密算法并编译为Wasm,在Java中利用Wasmtime运行时进行调用,实现6.7倍的性能提升。重点演示了Wasm内存模型操作和指针传递机制。 Java编译为Wasm:使用TeaVM将Java科学计算代码编译为Wasm模块,供浏览器前端直接调用。包含完整的Maven配置和前端调用示例,特别适合
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。