|
机器学习/深度学习 人工智能 并行计算
|

【DSW Gallery】DSW镜像使用入门

介绍DSW中如何使用官方镜像、自定义镜像、第三方镜像地址来启动服务。DSW环境进行定制修改之后还可以选择停机保存环境或者保存镜像到ACR镜像仓库。

2158 0
来自: 人工智能平台PAI  版块
|
人工智能 Cloud Native 数据挖掘
|

5 大类应用场景,26 个大厂真实生产案例分享,2022 年度 Apache Flink 案例集发布

2022 版《Apache Flink 行业案例集》免费下载

2484 2
来自: 实时计算 Flink  版块
|
机器学习/深度学习 缓存 分布式计算
|

【USENIX ATC】支持异构GPU集群的超大规模模型的高效的分布式训练框架Whale

高效大模型训练框架Whale(EPL)入选USENIX ATC

1342 0
来自: 人工智能平台PAI  版块
|
SQL API Apache
|

官宣|Apache Flink 1.15 发布公告

1.15 版本中,贡献者们极大地改进了操作 Apache Flink 的体验

84999 12
来自: 实时计算 Flink  版块
|
关系型数据库 MySQL 数据库
|

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Flink CDC 2.2 正式发布,文末有一则消息或许你会感兴趣~

9421 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 安全
|

【Elastic Engineering】Elasticsearch:Searchable snapshot - 可搜索的快照

Elasticsearch:Searchable snapshot - 可搜索的快照

503 0
|
存储 SQL 移动开发
|

Maxcompute造数据-方法详解

造一点模拟数据的方法

4099 0
来自: 大数据计算 MaxCompute  版块
|
存储 数据采集 监控
|

Monitoring 及 Central Management - Elastic Stack 实战手册

Monitoring 及 Central Management

1923 0
|
存储 SQL 调度
|

Flink 执行引擎:流批一体的融合之路

本文由 Apache Flink Committer 马国维分享,主要介绍 Flink 作为大数据计算引擎的流批一体融合之路。

8653 1
来自: 实时计算 Flink  版块
|
消息中间件 SQL Kubernetes
|

有赞 Flink 实时任务资源优化探索与实践

目前有赞实时计算平台对于 Flink 任务资源优化探索已经走出第一步。

3471 0
来自: 实时计算 Flink  版块
|
SQL 存储 消息中间件
|

Flink + Iceberg 全场景实时数仓的建设实践

Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flink 1.11.x 的集成支持。

5959 0
来自: 实时计算 Flink  版块
|
DataWorks 分布式计算 MaxCompute
|

DataWorks OpenAPI 示例(元数据模块)

DataWorks OpenAPI 示例

5481 0
|
存储 新零售 运维
|

基于Elasticsearch的商家服务解决方案

本文讲述了在电商新零售行业下,电商服务商爱用科技如何借助Elasticsearch,应对在业务系统中的大规模交易订单数据管理,以及全观测日志运维场景下的痛点和挑战,为其百万电商商家用户提供稳定高效的商家服务。

3188 0
|
机器学习/深度学习 JSON 文字识别
|

四步训练出自己的CNN手写识别模型 | 《阿里云机器学习PAI-DSW入门指南》

本节介绍四步训练出自己的CNN手写识别模型。

6052 0
来自: 人工智能平台PAI  版块
|
存储 自然语言处理 固态存储
|

初次使用 Elasticsearch 遇多种分词难题?那是你没掌握这些原理

命名有包含搜索关键词的文档,但结果却没有?存进去的文档被分成哪些词(term)了?自定义分词规则,但感觉好麻烦呢,无从下手?

5896 0
|
存储 SQL 分布式计算
|

Delta Lake,让你从复杂的Lambda架构中解放出来

Linux 基金会的 Delta Lake(Delta.io)是一个给数据湖提供可靠性的开源存储层软件。在 QCon 全球软件开发大会(上海站)2019 的演讲中,Databricks 公司的 Engineering Manager 李潇带我们了解了 Delta Lake 在实际生产中的应用与实践以及未来项目规划,本文便整理自此次演讲。

4899 0
|
编解码 达摩院 监控
|

阿里云 Elasticsearch 向量检索,轻松玩转人脸识别、搜索推荐等29个业务场景

简介:我们知道,市面上有不少开源的向量检索库供大家选择使用,例如 Facebook 推出的 Faiss 以及 Nswlib,虽然选择较多,但业务上需要用到向量检索时,依旧要面对四大共性问题。

11100 1
|
流计算 存储 调度
|

日均处理万亿数据!Flink在快手的应用实践与技术演进之路

本次的分享包括以下三个部分: 1. 介绍 Flink 在快手的应用场景以及目前规模; 2. 介绍 Flink 在落地过程的技术演进过程; 3. 讨论 Flink 在快手的未来计划。

4975 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 分布式计算 自然语言处理
|

【译】Spark NLP使用入门

原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

4240 0
|
新零售 机器学习/深度学习 算法
|

十年磨一剑,阿里巴巴推荐与搜索深度学习服务体系AI·OS在云栖大会正式亮相

2018年9月21~22日,在以“驱动数字科技”为主题的云栖大会上,阿里巴巴搜索事业部特别推出了“搜索推荐专场”,“推荐与搜索引擎AI·OS专场”,深度参与了这场科技盛宴。   阿里巴巴推荐与搜索引擎平台支持了包括淘宝、天猫、菜鸟、优酷以及海外电商在内的整个阿里集团的推荐与搜索业务,引导成交占据了集团GMV的绝大部分份额。

7462 0
来自: 智能搜索推荐  版块
|
Java 分布式数据库 Apache
|

HBase ThriftServer Kerberos认证

8574 0
|
监控 大数据 索引
|

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

9977 0
|
SQL 分布式计算 Java
|

MaxCompute - ODPS重装上阵 第三弹 - 复杂类型

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。

8138 0
来自: 大数据计算 MaxCompute  版块
|
供应链 数据可视化 前端开发
|

你刚吃的兰州牛肉面,背后就藏着大数据

兰州拉面都拥抱大数据了,此刻我只想问,黄焖鸡、麻辣烫和沙县小吃,你们还在等什么?

43646 58
来自: 数据可视化DataV  版块
|
分布式计算 关系型数据库 数据库
|

PyODPS DataFrame:统一的数据查询语言

前几天,PyODPS发布了0.7版本,这篇文章给大家介绍下PyODPS新版本带来的重要特性。 之前也有若干篇文章介绍过了,我们PyODPS DataFrame是延迟执行的,在调用立即执行的方法,比如execute、persist等之前,都只是构建了表达式。

6703 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

5W1H(六何分析法)全景洞察大数据

我们从大数据的特征说起,谈到了大数据的价值,再聊什么时候做,谁去做,选择什么平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。

11477 58
|
24天前
|
传感器 运维 前端开发
|

Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测

本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。

218 10
|
1月前
|
JavaScript Java 关系型数据库
|

基于springboot的校内跑腿管理系统

针对校园跑腿服务效率低、信任难等问题,本研究设计基于Spring Boot与Vue的校内跑腿管理系统,融合MySQL数据库与智能化调度技术,实现任务发布、智能匹配、实时追踪与评价反馈一体化,提升服务效率与质量,助力智慧校园建设。

128 0
|
1月前
|
JavaScript Linux 开发工具
|

编写第一个MCP Server之Hello world

本文介绍如何使用Node.js编写一个简单的MCP Server——“Echo”服务。通过环境搭建、项目初始化、代码实现及验证,完成MCP服务的开发与调用测试,助力快速入门MCP协议开发。

159 2
|
1月前
|
机器学习/深度学习 人工智能 前端开发
|

解决推理能力瓶颈,用因果推理提升LLM智能决策

从ChatGPT到AI智能体,标志着AI从对话走向自主执行复杂任务的能力跃迁。AI智能体可完成销售、旅行规划、外卖点餐等多场景任务,但其发展受限于大语言模型(LLM)的推理能力。LLM依赖统计相关性,缺乏对因果关系的理解,导致在非确定性任务中表现不佳。结合因果推理与内省机制,有望突破当前AI智能体的推理瓶颈,提升其决策准确性与自主性。

155 6
|
1月前
|
人工智能 自然语言处理 监控
|

构建可观测、可治理的企业智能体:平台核心能力解析

在人工智能快速发展的背景下,企业智能体已成为推动数字化转型的重要力量。然而,其复杂性和不可预测性也带来了可靠性、透明性和可控性等挑战。构建具备全景可观测性、多层治理框架、智能体协同与知识管理、人类监督机制的智能体体系,成为企业实现安全、合规、高效运营的关键。通过系统化实施路径,企业可全面提升智能体的透明度与治理能力,把握智能时代发展机遇。

123 3
|
1月前
|
数据采集 监控 前端开发
|

建议用API来获取电商的商品数据,但还是需要用爬虫

在电商数据获取中,“优先用 API、辅以爬虫”是务实策略。API 满足合规稳定的核心需求,而爬虫则在权限限制、数据不全、成本过高或跨平台整合时发挥关键补充作用。本文从 API 局限性、爬虫不可替代场景及协同方案三方面,详解如何高效结合两者,实现合规又全面的数据采集与应用。

140 2
|
1月前
|
数据可视化 安全 API
|

客流类API实测:获取线下指定区域的历史客流数据

在数据驱动的商业环境中,历史客流量数据至关重要。通过“区域客流”API,可灵活查询指定区域的历史客流,支持多时间维度和地理围栏,提供16类细分数据,覆盖广泛商业需求,API调用简便。

92 0
|
1月前
|
存储 分布式计算 资源调度
|

【赵渝强老师】阿里云大数据MaxCompute的体系架构

阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。

155 1
来自: 大数据计算 MaxCompute  版块
|
2月前
|
数据可视化 数据挖掘 决策智能
|

“价格别瞎拍脑袋定了”:聊聊零售如何用数据分析玩转定价策略

“价格别瞎拍脑袋定了”:聊聊零售如何用数据分析玩转定价策略

121 0
|
2月前
|
JSON 算法 数据库
|

使用 BAML 模糊解析改进 LangChain 知识图谱提取:成功率从25%提升到99%

在构建基于知识图谱的检索增强生成(RAG)系统时,从非结构化数据中准确提取节点和关系是一大挑战,尤其在使用小型本地量化模型时表现更差。本文对比了传统 LangChain 提取框架的严格 JSON 解析限制,提出采用 BAML 的模糊解析策略,显著提升知识图谱提取成功率。实验表明,在相同条件下,BAML 将成功率从约 25% 提升至 99% 以上,为构建高效、稳定的 RAG 系统提供了有效解决方案。

139 0

Java 大视界 -- Java 大数据在智能医疗手术风险评估与术前方案制定中的应用探索(203)

本文探讨了Java大数据技术在智能医疗手术风险评估与术前方案制定中的创新应用。通过多源数据整合、智能分析模型构建及知识图谱技术,提升手术风险预测准确性与术前方案制定效率,助力医疗决策智能化,推动精准医疗发展。

110 0
|
3月前
|
API 开发工具 开发者
|

API测评:快速获取门店客流趋势数据

本文介绍了一个门店客流趋势API,帮助创业者和开发者便捷获取门店客流数据。只需提供场景ID和查询时间段,即可获取详细客流分析数据,包括日均、总客流、外卖客流及竞品对比等,助力门店高效运营与决策分析。

146 0
|
3月前
|
存储 缓存 NoSQL
|

Redis核心数据结构与分布式锁实现详解

Redis 是高性能键值数据库,支持多种数据结构,如字符串、列表、集合、哈希、有序集合等,广泛用于缓存、消息队列和实时数据处理。本文详解其核心数据结构及分布式锁实现,帮助开发者提升系统性能与并发控制能力。

254 0
|
3月前
|
消息中间件 监控 Java
|

借助最新技术构建 Java 邮件发送功能的详细流程与核心要点分享 Java 邮件发送功能

本文介绍了如何使用Spring Boot 3、Jakarta Mail、MailHog及响应式编程技术构建高效的Java邮件发送系统,涵盖环境搭建、异步发送、模板渲染、测试与生产配置,以及性能优化方案,助你实现现代化邮件功能。

175 0
|
3月前
|
安全 区块链 开发者
|

如果公司没有老板,还能好好运转吗?——DAO 正在给企业管理一次颠覆式重构

如果公司没有老板,还能好好运转吗?——DAO 正在给企业管理一次颠覆式重构

127 1
|
3月前
|
存储 人工智能 自然语言处理
|

AI代理内存消耗过大?9种优化策略对比分析

在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。

194 4
|
3月前
|
数据采集 搜索推荐 API
|

淘宝商品评论API接口全解析:从数据采集到情感分析

淘宝商品评论API是淘宝开放平台提供的数据服务,支持开发者获取商品的用户评论、评分、时间、多媒体信息等。接口具备筛选、分页和排序功能,适用于产品优化与市场分析。文章还附有Python调用示例,演示如何请求和解析评论数据。

190 0
|
3月前
|
人工智能 自然语言处理 搜索推荐
|

AI 搜索 MCP 最佳实践

本文介绍了如何通过 MCP 协议,快速调用阿里云 OpenSearch 、ElasticSearch 等工具,帮助企业快速集成工具链、降低开发复杂度、提升业务效率。

439 29
|
4月前
|
数据采集 存储 API
|

Python爬虫结合API接口批量获取PDF文件

Python爬虫结合API接口批量获取PDF文件

211 0
|
4月前
|
机器学习/深度学习 运维 算法
|

基于LSTM自编码器与KMeans聚类的时间序列无监督异常检测方法

本文提出的基于LSTM自编码器和KMeans聚类的组合方法,通过整合深度学习的序列建模能力与无监督聚类的模式分组优势,实现了对时间序列数据中异常模式的有效检测,且无需依赖标注的异常样本进行监督学习。

147 0
|
4月前
|
机器学习/深度学习 存储 PyTorch
|

PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统

本文通过使用 Kaggle 数据集训练情感分析模型的实例,详细演示了如何将 PyTorch 与 MLFlow 进行深度集成,实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件,展示指标和工件的记录方法,并提供 MLFlow UI 的详细界面截图。

191 2
|
4月前
|
数据可视化 算法 数据挖掘
|

Python 3D数据可视化:7个实用案例助你快速上手

本文介绍了基于 Python Matplotlib 库的七种三维数据可视化技术,涵盖线性绘图、散点图、曲面图、线框图、等高线图、三角剖分及莫比乌斯带建模。通过具体代码示例和输出结果,展示了如何配置三维投影环境并实现复杂数据的空间表示。这些方法广泛应用于科学计算、数据分析与工程领域,帮助揭示多维数据中的空间关系与规律,为深入分析提供技术支持。

152 0
|
4月前
|
搜索推荐 数据挖掘 计算机视觉
|

小红书视频图文提取:采集+CV的实战手记

这是一套用于自动抓取小红书热门视频内容的工具脚本,支持通过关键词搜索提取前3名视频的封面图、视频文件及基本信息(标题、作者、发布时间)。适用于品牌营销分析、热点追踪或图像处理等场景。脚本包含代理配置、接口调用和文件下载功能,并提供扩展建议如图像识别与情绪分析。适合需要高效采集小红书数据的团队或个人使用,稳定性和灵活性兼备。

324 4
|
4月前
|
资源调度 Kubernetes 流计算
|

Flink在B站的大规模云原生实践

本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。

258 9
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67310
内容
127
活动
439313
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务