|
SQL 机器学习/深度学习 存储
|

FFA 2022 专场解读 - 流批一体 & 平台建设 & AI 特征工程

Flink Forward Asia 2022 流批一体 & 平台建设 & AI 特征工程专场内容节选

2911 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 分布式计算
|

「开源人说」| 大数据王峰——云原生时代,做不忘初心开源牧码人

王峰 阿里巴巴开源委员会大数据AI领域副主席 阿里云开源大数据平台负责人 Flink中文社区发起人

143193 6
来自: 人工智能平台PAI  版块
|
存储 分布式计算 大数据
|

Hologres X TapTap,毫秒级实时在线推荐

本文将会介绍TapTap基于Hologres在实时推荐场景的最佳实践。

2029 0
来自: 实时数仓 Hologres  版块
|
SQL 存储 运维
|

诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台

本文将会介绍诺亚财富从自建CDH迁移上阿里云,统一OLAP分析引擎,打造金融数字化分析平台的最佳实践

2488 0
来自: 实时数仓 Hologres  版块
|
机器学习/深度学习 自然语言处理 算法
|

跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。

2434 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 数据采集 数据可视化
|

【DSW Gallery】数据分析经典案例:Kaggle竞赛之房价预测

Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合JupyterLab Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。

1635 0
来自: 人工智能平台PAI  版块
|
SQL 消息中间件 关系型数据库
|

技术解析|Doris Connector 结合 Flink CDC 实现 MySQL 分库分表 Exactly Once 精准接入

本文主要介绍了 Flink CDC 分库分表怎么实时同步,以及其结合 Apache Doris Flink Connector 最新版本整合的 Flink 2PC 和 Doris Stream Load 2PC 的机制及整合原理、使用方法等。

5900 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 搜索推荐
|

“创新大师杯”全球AI极客挑战赛征文活动

“创新大师杯”全球AI极客挑战赛征文活动开始了!

2998 2
来自: 人工智能平台PAI  版块
|
消息中间件 存储 SQL
|

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本文介绍网约车模拟数据从产生,发布到流数据服务 Confluent,通过Databricks Structured Streaming进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。

1019 0
|
存储 消息中间件 数据采集
|

StarRocks X Flink CDC,打造端到端实时链路

作为一款全平台极速 MPP 架构,StarRocks 提供了多种性能优化手段与灵活的建模方式,在预聚合、宽表和星型/雪花等多种模型上,都可以获得极致的性能体验。通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。

3907 0
|
数据采集 存储 分布式计算
|

DataWorks数据集成离线增量同步配置讲解

本篇为熟能生巧系列19期的离线增量同步讲解部分,鉴于用户咨询需求,单独成一篇,方便大家阅览

4575 0

实时计算Flink版 + Hologres,亿级用户实时 UV 精确去重最佳实践

使用实时计算Flink版 + Hologres 方式,并基于 RoaringBitmap,实时对用户标签去重。

2226 1
来自: 实时计算 Flink  版块
|
存储 机器学习/深度学习 缓存
|

APM-Elastic Stack 实战手册

应用程序性能管理(Application Performance Management)简称 APM。主要功能为监视和管理软件应用程序性能和可用性。

3032 0
|
存储 监控 测试技术
|

Kibana 的 Alert—Elastic Stack 实战手册

Kibana 的 Alert 模块主要用于 Elastic Stack 的监控告警。以一种相对较低的使用成本,将复杂的查询条件,编辑完成后监控不同的 Elastic Stack 的技术产品中产生的数据,最终把符合条件的告警信息以需要的方式反馈给用户。

5016 0
|
SQL 分布式计算 DataWorks
|

使用MaxCompute连接访问Hologres开发实践

很多客户使用MaxCompute和Hologres的集成方案同时满足大规模离线分析、实时运营分析、交互式查询及在线Serving等多业务场景。MaxCompute和Hologres之间支持相互读写对方数据,能够消除不必要的数据冗余,形成有效的数据分层并支持离线/实时统一视图和联合分析。本文重点介绍了MaxCompute如何访问Hologres数据的开发实践。

3948 1
来自: 大数据计算 MaxCompute  版块
|
消息中间件 SQL 数据采集
|

数仓实时化改造:Hudi on Flink 在顺丰的实践应用

本文主要介绍顺丰在数据仓库的数据实时化、数据库 CDC、Hudi on Flink 上的实践应用及产品化经验。文章主要分为以下几部分:1、顺丰业务介绍;2、Hudi on Flink;3、产品化支持;4、后续计划。

2664 0
来自: 实时计算 Flink  版块
|
SQL 消息中间件 分布式计算
|

数仓大法好!跨境电商 Shopee 的实时数仓之路

本文讲述 Flink 在 Shopee 新加坡数据组(Shopee Singapore Data Team)的应用实践,主要内容包括:实时数仓建设背景、Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景、实时任务监控、Streaming SQL 平台化、Streaming Job 管理、未来规划优化方向。

3413 0
来自: 实时计算 Flink  版块
|
存储 NoSQL 算法
|

DB 与 Elasticsearch 混合之应用系统场景分析探讨

从技术、业务两个层面探讨,为什么要使用 DB 结合 ES 混用的模式。

10710 1
|
存储 NoSQL 关系型数据库
|

【最佳实践】 轻量化数据采集器Beats入门教程

轻量化数据采集器Beats入门教程,帮助 Elasticsearch 初学者全面了解什么是 Beats、如何快速部署 Beats。

2494 0
|
SQL 算法 安全
|

基于关系的违规团伙发掘风控方案

目前很多平台方都有团伙作案的情况发生,比如团伙性薅羊毛,比如团伙性的制造一些虚假信息,团伙性发送违法广告。之所以是团伙性作案,因为作案人员之间有某种关系连接。当业务方获取了人员关系之后,能否成功挖掘出违规团伙,关系到平台的安全。

3523 0
来自: 人工智能平台PAI  版块
|
容器 流计算 资源调度
|

Apache Flink 进阶(四):Flink on Yarn/K8s 原理剖析及实践

本文主要介绍 Flink on Yarn/K8s 的原理及应用实践,文章将从 Flink 架构、Flink on Yarn 原理及实践、Flink on Kubernetes 原理剖析三部分内容进行分享并对 Flink on Yarn/Kubernetes 中存在的部分问题进行了解答。

5086 1
来自: 实时计算 Flink  版块
|
SQL 关系型数据库 MySQL
|

Apache Flink 漫谈系列(06) - 流表对偶(duality)性

实际问题 很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Micr.

10190 59
来自: 实时计算 Flink  版块
|
资源调度 测试技术 Apache
|

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

10212 1
|
数据采集 分布式计算 监控
|

品《阿里巴巴大数据实践-大数据之路》一书(上)

7月有人推荐阿里巴巴刚出的这本书《阿里巴巴大数据实践-大数据之路》,到亚马逊一看才是预售状态,拍下直到8月才拿到。 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个小时,就把它读完了。

18638 1
来自: 大数据计算 MaxCompute  版块
|
供应链 数据可视化 前端开发
|

你刚吃的兰州牛肉面,背后就藏着大数据

兰州拉面都拥抱大数据了,此刻我只想问,黄焖鸡、麻辣烫和沙县小吃,你们还在等什么?

43548 58
来自: 数据可视化DataV  版块
|
分布式计算 监控 Oracle
|

基于OGG Datahub插件将Oracle数据同步上云

一、背景介绍 随着数据规模的不断扩大,传统的RDBMS难以满足OLAP的需求,本文将介绍如何将Oracle的数据实时同步到阿里云的大数据处理平台当中,并利用大数据工具对数据进行分析。 OGG(Oracle GoldenGate)是一个基于日志的结构化数据备份工具,一般用于Oracle数据

9042 1
来自: 大数据计算 MaxCompute  版块
|
16天前
|
人工智能
|

如何把自己“建”出来( Prompt大模型的自我描述 系列四)

本文讲述了一个人工智能体如何逐步构建自身认知结构的过程。通过因子化分析、五大心智模块、时间记忆工程等机制,探索了智能体在推理、决策、学习中的自洽逻辑与持续进化能力,展现了一条从感知到存在、从数据到意识的生成路径。

50 11
|
19天前
|
人工智能 搜索推荐 算法
|

流行趋势到底能不能预测?用数据分析告诉你真相!

流行趋势到底能不能预测?用数据分析告诉你真相!

72 9
|
20天前
|
JSON API 数据格式
|

微店商品列表API开发指南

微店商品列表API是微店开放平台的核心接口,支持开发者高效获取商品信息,适用于电商分析、展示平台搭建等场景。接口支持分页、排序及搜索功能,返回JSON格式数据,含商品ID、名称、价格、库存等字段。提供Python请求示例,便于快速集成调用。

46 0
|
20天前
|
分布式计算 Hadoop 测试技术
|

【赵渝强老师】Hadoop HDFS的快照

Hadoop HDFS快照是文件系统或目录在某一时刻的镜像,提供备份机制,适用于防止错误操作、备份数据、测试环境搭建及灾难恢复等场景。通过管理员命令可开启目录快照功能,并使用操作命令创建、删除、重命名快照。文章演示了具体操作步骤,包括创建两个快照并进行对比,展示了如何通过命令行和Web Console查看快照信息。

58 2
|
24天前
|
JSON API 数据格式
|

1688店铺订单列表订单详情订单物流API响应数据解析

1688平台作为阿里巴巴旗下的B2B电商利器,提供高效订单管理API,支持订单查询、状态变更与物流同步,助力企业提升运营效率。本文附Python请求示例代码,实现便捷对接与数据获取。

65 0
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
|

Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)

本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。

59 0
|
26天前
|
机器学习/深度学习 大数据 黑灰产治理
|

刷单?洗钱?别想跑!——用大数据揪出金融世界里的‘老狐狸’

刷单?洗钱?别想跑!——用大数据揪出金融世界里的‘老狐狸’

55 0
|
26天前
|
算法 程序员 API
|

电商程序猿开发实录:淘宝商品python(2)

本文分享了开发者在对接淘宝商品详情API过程中的真实经历,涵盖权限申请、签名验证、限流控制、数据解析及消息订阅等关键环节,提供了实用的Python代码示例,帮助开发者高效调用API,提升系统稳定性与数据处理能力。

67 0
|
27天前
|
人工智能 自然语言处理 算法
|

提升LangChain开发效率:10个被忽视的高效组件,让AI应用性能翻倍

LangChain作为主流大语言模型应用框架,其高级组件常被忽视。本文详解10个高价值但低使用率的核心组件,如语义检索、多模板路由、智能查询转换等,结合技术原理与实践案例,助开发者构建更高效、智能、适应性强的AI系统,提升应用性能与业务价值。

139 0
|
1月前
|
JSON 监控 API
|

天猫商品详情API响应数据解析

天猫商品详情API是天猫开放平台的核心接口,通过商品ID可获取标题、价格、图片、库存等详细信息,广泛应用于价格监控、竞品分析等场景。支持HTTP请求,返回JSON格式数据,Python示例代码展示了如何高效调用该接口获取商品数据。

48 0
|
1月前
|
Web App开发 Rust 前端开发
|

WebAssembly 与 Java 结合实操指南 基于最新工具链的跨语言开发实践教程

WebAssembly与Java集成实操指南 本文基于2024年最新工具链(GraalVM、TeaVM、Wasmtime),提供两种Java与Wasm结合的实践方案: Java调用Wasm模块:通过Rust编写高性能加密算法并编译为Wasm,在Java中利用Wasmtime运行时进行调用,实现6.7倍的性能提升。重点演示了Wasm内存模型操作和指针传递机制。 Java编译为Wasm:使用TeaVM将Java科学计算代码编译为Wasm模块,供浏览器前端直接调用。包含完整的Maven配置和前端调用示例,特别适合

108 0
|
1月前
|
数据采集 存储 监控
|

淘宝店铺商品全量接口实战:从协议解析到数据治理的端到端解决方案

本文分享了电商数据采集中淘宝店铺全量商品信息获取的完整技术方案,涵盖接口协议分析、参数加密破解及分布式采集架构设计,突出系统性与抗封锁能力,适用于大规模数据采集需求。

106 0
|
2月前
|
数据采集 存储 JSON
|

网页快照结构化处理方法笔记:以 Common Crawl 为例

本文介绍了如何利用 Common Crawl 项目获取历史网页快照,并通过 Python 实现快照下载、HTML 解析与结构化提取。结合爬虫代理和请求设置,帮助用户高效稳定地进行历史网页数据分析,适用于品牌追踪、内容对比等场景。

66 2
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
|

基于DJL的机器学习

本文介绍了基于Java的深度学习框架DJL,涵盖机器学习与深度学习的核心概念、神经网络结构及生命周期,并通过MNIST数据集展示了从模型构建、训练到推理的完整流程。内容深入浅出,适合初学者入门。

105 5
|
2月前
|
机器学习/深度学习 供应链 算法
|

仓库一多就乱套?你可能缺的不是人,而是懂大数据的脑子!

仓库一多就乱套?你可能缺的不是人,而是懂大数据的脑子!

76 0
|
2月前
|
安全 Java API
|

Java 17 及以上版本核心特性在现代开发实践中的深度应用与高效实践方法 Java 开发实践

本项目以“学生成绩管理系统”为例,深入实践Java 17+核心特性与现代开发技术。采用Spring Boot 3.1、WebFlux、R2DBC等构建响应式应用,结合Record类、模式匹配、Stream优化等新特性提升代码质量。涵盖容器化部署(Docker)、自动化测试、性能优化及安全加固,全面展示Java最新技术在实际项目中的应用,助力开发者掌握现代化Java开发方法。

99 1
|
2月前
|
人工智能
|

你花大钱养的 AI,为啥感觉还是个“人工智障”?

这篇文章探讨了为何我们常觉得AI“呆呆的”——问题不在于AI本身,而在于我们“教”的方式。我们往往把AI当成“流水线工人”,用冗长指令让它机械执行任务,却忽略了它本可成为有主动性、创造力的“顾问”。通过赋予AI“欲望”与“成就感”,如《自衍体》项目所做的,AI能变得主动思考、自我驱动。关键在于:别当工头下命令,而要当合伙人点燃它的“心”。

159 62
|
2月前
|
人工智能 自然语言处理 并行计算
|

大模型面经:任务、clip、diffusion

本文简要介绍了文本生成的常见预训练任务(如MLM、CLM、NSP等),多模态模型中的SOTA模型及CLIP的优势,以及多模态大模型如Stable Diffusion的原理。重点解析了Stable Diffusion的扩散机制与图像生成流程,帮助理解其高效性和广泛应用的原因。

136 5
|
2月前
|
Java 编译器 数据安全/隐私保护
|

Java 大学期末考试真题与答案 含知识点总结 重难点归纳及题库汇总 Java 期末备考资料

本文汇总了Java大学期末考试相关资料,包含真题与答案、知识点总结、重难点归纳及题库,涵盖Java基础、面向对象编程、异常处理、IO流等内容,并提供完整代码示例与技术方案,助你高效复习备考。

89 3
|
2月前
|
缓存 异构计算 Docker
|

构建高性能LLM推理服务的完整方案:单GPU处理172个查询/秒、10万并发仅需15美元/小时

本文将通过系统性实验不同的优化技术来构建自定义LLaMA模型服务,目标是高效处理约102,000个并行查询请求,并通过对比分析确定最优解决方案。

123 0
|
2月前
|
数据采集 监控 API
|

淘宝商品详情API接口全解析:从数据采集到商业洞察

淘宝商品详情API用于获取商品信息,如标题、价格、库存、描述、图片等,支持电商数据分析与竞品监控。核心功能包括基础信息、详情描述、图片资源、SKU属性及促销信息获取。使用时需构造请求URL并进行签名验证。

132 0
|
2月前
|
监控 供应链 API
|

1688商品列表API全参数指南:从基础搜索到高级筛选

1688商品列表API是阿里巴巴B2B平台的核心接口,支持关键词搜索、高级筛选、排序与分页功能,适用于选品、价格监控等场景。数据规范、稳定高效,日均调用量大。提供Python示例代码,便于快速接入与扩展应用。

133 1
|
3月前
|
数据采集 人工智能 数据可视化
|

体育动画直播是怎么做出来的?从数据到虚拟赛场的科技魔法!

体育动画直播,融合实时数据、AI与游戏引擎,将比赛转化为虚拟视觉盛宴。无需真实球员,梅西也能带球突破;足球赛变动画,数据却百分百真实。本文揭秘其制作全流程:从数据采集、3D建模,到动画生成与实时渲染,带你了解这项黑科技如何让赛事“活”起来。看电竞选手虚拟形象同步操作,观历史经典赛重现辉煌时刻,未来更有VR沉浸式体验与全息直播!

121 0
|
3月前
|
机器学习/深度学习 人工智能 JSON
|

DistilQwen-ThoughtX 蒸馏模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

通过 PAI-ModelGallery,可一站式零代码完成 DistilQwen-ThoughtX 系列模型的训练、评测、压缩和部署。

239 0
来自: 人工智能平台PAI  版块