|
5天前
|
数据可视化 搜索推荐 大数据
|

基于python大数据的北京旅游可视化及分析系统

本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。

29 3
|
11天前
|
SQL 运维 监控
|

抖音基于Flink的DataOps能力实践

本文整理自抖音集团数据工程师黄鑫在Flink Forward Asia 2024的分享,围绕抖音实时数据研发的现状与挑战、DataOps能力建设及未来规划展开,涵盖需求管理、开发测试、发布运维等全流程实践,旨在提升数据质量与开发效率,实现高效稳定的数据交付。

73 0
来自: 实时计算 Flink  版块
|
14天前
|
存储 分布式计算 数据处理
|

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。

331 0
来自: 实时计算 Flink  版块
|
24天前
|
人工智能 测试技术 芯片
|

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

本文介绍了使用四块Framework主板构建AI推理集群的过程,并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能测试,重点评估其并行推理能力及集群表现。

134 0
|
2月前
|
存储 SQL 测试技术
|

抖音集团基于Paimon的流式数据湖应用实践

本文整理自抖音集团数据工程师在Flink Forward Asia 2024的分享,围绕流式湖仓架构的背景、实践与未来展望展开。内容涵盖实时数仓架构演进、Paimon的应用与优化,以及在长周期指标计算和大流量场景下的落地实践经验。

269 0
来自: 实时计算 Flink  版块
|
3月前
|
机器学习/深度学习 数据采集 分布式计算
|

阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型

本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。

390 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。

604 7
来自: 人工智能平台PAI  版块
|
4月前
|
定位技术 API
|

HarmonyOS实战:高德地图定位功能完整流程详解

本文详细介绍了在鸿蒙系统中使用高德地图实现完整定位功能的流程。首先分析需求,包括权限申请、检查GPS状态、单次或多次定位选择以及定位失败处理。接着通过代码实现具体步骤:添加定位权限、申请用户权限、检查GPS开关状态、启动定位服务,并处理定位成功或失败的情况。若定位失败,可尝试获取历史定位信息或使用默认位置。最后总结指出,虽然定位功能基础简单,但完整的流程与细节处理才是关键。建议读者动手实践,掌握高德地图定位功能的使用。

432 15
|
6月前
|
数据采集 存储 监控
|

网站价格监控:动态价格数据的实时抓取案例

本案例展示了如何利用爬虫技术实时抓取京东等电商平台的商品信息、价格及用户评价,通过代理IP、Cookie和User-Agent确保数据稳定采集。关键数据分析包括价格动态监控、评价趋势分析和竞争情报获取,助力商家制定策略。代码从简单请求逐步演进为具备异常处理、数据解析等功能的完整体系,并设计了「技术关系图谱」,直观展示系统模块间的关系,为开发者提供全局视角和技术路径参考。

916 0
|
9月前
|
Cloud Native Apache 流计算
|

资料合集|Flink Forward Asia 2024 上海站

Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。

8327 18
来自: 实时计算 Flink  版块
|
12月前
|
SQL 机器学习/深度学习 自然语言处理
|

Text-to-SQL技术演进 - 阿里云OpenSearch-SQL在BIRD榜单夺冠方法剖析

本文介绍了Text-to-SQL的技术演进,并对OpenSearch-SQL方法进行剖析。

1532 8
来自: 智能搜索推荐  版块
|
机器学习/深度学习 数据采集 运维
|

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

1118 0
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 Java
|

Spark 为什么比 Hive 快

Spark与Hive在数据处理上有显著区别。Spark以其内存计算和线程级并行提供更快的速度,但稳定性受内存限制。相比之下,Hive虽较慢,因使用MapReduce,其稳定性更高,对内存需求较小。在Shuffle方式上,Spark的内存 Shuffle 比Hive的磁盘 Shuffle 更高效。综上,Spark在处理速度和Shuffle上占优,Hive则在稳定性和资源管理上更胜一筹。

620 0
|
SQL 关系型数据库 MySQL
|

实时计算 Flink版操作报错合集之报错:org.apache.flink.table.api.validationexception如何解决

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

1084 1
来自: 实时计算 Flink  版块
|
SQL 数据采集 存储
|

Hive实战 —— 电商数据分析(全流程详解 真实数据)

关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。

2368 1
|
人工智能 JSON 运维
|

AI大模型运维开发探索第三篇:深入浅出运维智能体

大模型出现伊始,我们就在SREWorks开源社区征集相关的实验案例。玦离同学提供了面向大数据HDFS集群的智能体案例,非常好地完成了运维诊断的目标。于是基于这一系列的实验和探索。本文详细介绍智能体在运维诊断中的应用探索。

3339 3
来自: 大数据运维SREWorks  版块
|
机器学习/深度学习 传感器 编解码
|

【多传感器融合】BEVFusion: 激光雷达和摄像头融合框架 NeurIPS 2022

BEVFusion提出一个融合多摄像头和激光雷达数据的框架,可用于3D检测。在自动驾驶领域,通过独立处理并融合摄像头和激光雷达数据,可以显著提升3D对象检测的准确性和稳健性,尤其是在激光雷达可能出现故障的真实场景中。

3385 57
|
存储 机器学习/深度学习 分布式计算
|

【DSW Gallery】COMMON_IO使用指南

COMMON_IO模块提供了TableReader和TableWriter两个接口,使用TableReader可以读取ODPS Table中的数据,使用TableWriter可以将数据写入ODPS Table。

3791 0
来自: 人工智能平台PAI  版块
|
3天前
|
机器学习/深度学习 数据可视化 搜索推荐
|

基于python的汽车数据可视化、推荐及预测系统

本研究围绕汽车数据可视化、推荐及预测系统展开,结合大数据与人工智能技术,旨在提升用户体验与市场竞争力。内容涵盖研究背景、意义、相关技术如 Python、ECharts、协同过滤及随机森林回归等,探讨如何挖掘汽车数据价值,实现个性化推荐与智能预测,为汽车行业智能化发展提供支持。

28 8
|
4天前
|
运维 NoSQL 调度
|

GPU集群扩展:Ray Serve与Celery的技术选型与应用场景分析

Ray Serve与Celery对比:Ray Serve适用于低延迟、高并发的GPU推理服务,支持资源感知调度;Celery适合CPU密集型的离线批处理,具备成熟的任务队列机制。两者设计理念不同,适用场景各异,可根据任务类型灵活选型。

28 6
|
4天前
|
SQL 缓存 分布式计算
|

【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询

本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。

28 8
来自: 大数据计算 MaxCompute  版块
|
14天前
|
DataWorks 数据挖掘 Serverless
|

阿里云EMR Serverless StarRocks 内容合集

阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。

87 0
|
19天前
|
机器学习/深度学习 存储 JSON
|

PyCharm 创建了第一个项目

在 PyCharm 中创建项目时,合理的目录结构有助于代码、依赖和资源的高效管理。本文详细解析了 PyCharm 的默认目录结构,如 `.idea/`(配置文件)、`venv/`(虚拟环境)、`src/`(源代码)、`tests/`(测试代码)、`data/`(数据文件)等,并提供了文件创建建议和最佳实践。同时介绍了核心代码、脚本文件、测试文件的存放位置,以及 PyCharm 的常用操作技巧,帮助开发者构建清晰、可维护的项目结构。

100 2
|
2月前
|
分布式计算 Serverless OLAP
|

实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统

Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。

347 2
来自: 实时数仓 Hologres  版块
|
3月前
|
存储 传感器 安全
|

数据不是“铁打的”,从出生到销毁它也有生命周期

数据不是“铁打的”,从出生到销毁它也有生命周期

186 1
|
6月前
|
机器学习/深度学习 存储 人工智能
|

SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架

SEARCH-R1是一种创新的强化学习框架,使大型语言模型(LLM)具备多轮搜索与推理能力。它通过强化学习自主生成查询并优化基于检索结果的推理,无需人工标注数据。相比传统RAG或工具使用方法,SEARCH-R1显著提升问答性能,在多个数据集上实现26%以上的相对性能提升。其核心优势在于强化学习与搜索的深度融合、交错式多轮推理机制及令牌级损失屏蔽技术,推动了LLM在复杂推理和实时知识获取方面的边界。尽管存在奖励函数设计简化等局限性,SEARCH-R1为构建更智能的交互系统提供了重要参考。

484 7
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
|

SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器

SigLIP 2 是一种改进的多语言视觉-语言编码器系列,通过字幕预训练、自监督学习和在线数据管理优化性能。它在零样本分类、图像-文本检索及视觉表示提取中表现卓越,支持多分辨率处理并保持图像纵横比。模型提供 ViT-B 至 g 四种规格,采用 WebLI 数据集训练,结合 Sigmoid 损失与自蒸馏等技术提升效果。实验表明,SigLIP 2 在密集预测、定位任务及多模态应用中显著优于前代和其他基线模型。

439 9
|
6月前
|
XML 存储 分布式计算
|

【赵渝强老师】史上最详细:Hadoop HDFS的体系架构

HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。

524 70
来自: 大数据计算 MaxCompute  版块
|
7月前
|
JSON API 数据格式
|

携程网获取景点列表 API 接口(携程 API 系列)

携程作为国内知名的在线旅游服务提供商,其景点列表API对接口功能、参数和返回格式进行了详细定义。该接口可获取景点基本信息(名称、地区、开放时间等),支持条件筛选查询(如按地区、评分、价格区间等)。接口返回JSON或XML格式数据,并设有调用限制以确保系统稳定性和数据安全。虽然携程未公开免费API,开发者可通过商务合作申请权限。以下为模拟Python请求示例,展示了如何使用该接口获取景点信息。 代码示例中,通过`requests.get()`发送GET请求,设置请求参数(如地区、门票价格等)和请求头(模拟浏览器访问),并处理响应数据。实际应用需替换为真实的接口URL,并遵循携程官方文档要求。

1520 0
|
9月前
|
机器学习/深度学习 算法 安全
|

从方向导数到梯度:深度学习中的关键数学概念详解

方向导数衡量函数在特定方向上的变化率,其值可通过梯度与方向向量的点积或构造辅助函数求得。梯度则是由偏导数组成的向量,指向函数值增长最快的方向,其模长等于最速上升方向上的方向导数。这两者的关系在多维函数分析中至关重要,广泛应用于优化算法等领域。

390 36
|
11月前
|
机器学习/深度学习 自然语言处理 前端开发
|

前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革

除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。

1899 1
|
11月前
|
数据采集 安全 API
|

数据治理:实现原始数据不出域,确保数据可用不可见的创新策略

在数字化时代,数据成为企业宝贵资产,驱动业务决策与创新。然而,数据量激增和流通频繁带来了安全和管理挑战。“原始数据不出域,数据可用不可见”的治理理念应运而生,通过数据脱敏、沙箱技术和安全多方计算等手段,确保数据安全共享与高效利用。这一理念已广泛应用于金融、医疗等行业,提升了数据价值和企业竞争力。

1685 0
|
机器学习/深度学习 人工智能 供应链
|

AI在各行业的具体应用与未来展望

人工智能(Artificial Intelligence, AI)作为一项颠覆性技术,正在逐步改变我们的生活和工作方式。从语音助手到自动驾驶汽车,AI的应用已经深入到各个领域。本文将详细探讨AI在不同行业中的具体应用,以及未来可能的发展方向。

3026 6
|
消息中间件 Docker 索引
|

【一文解读】阿里自研开源核心搜索引擎 Havenask简介及发展历史

本次分享内容为Havenask的简介及发展历史,由下面五个部分组成(Havenask整体介绍、名词解释、架构、代码结构、编译与部署),希望可以帮助大家更好了解和使用Havenask。

72735 0
来自: 智能搜索推荐  版块
|
机器人 iOS开发
|

空间音频是什么?

从单声道音频发展到双声道、再到多声道和环绕立体声,数字音频的表现力不断提升。空间音频(也称为三维声音或3D音频)并不只是通过增加声道来创造立体感,而是一种与视频空间化同步的音频处理过程。基于空间的音频甚至可以具有六个自由度,使用户能够互动。声音不仅要清晰动听,还要与空间场景完美契合,带来沉浸式体验。让我们一起深入了解一下空间音频技术。

1308 0
|
算法 计算机视觉
|

【MATLAB】 ICEEMDAN信号分解+FFT傅里叶频谱变换组合算法

【MATLAB】 ICEEMDAN信号分解+FFT傅里叶频谱变换组合算法

1358 0
|
存储 分布式计算 Cloud Native
|

首次揭秘云原生Hologres存储引擎

本文将会首次对外公开介绍Hologres的存储引擎,深度剖析其实现原理和核心技术优势。

28974 2
来自: 实时数仓 Hologres  版块
|
20天前
|
机器学习/深度学习 存储 人工智能
|

RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南

本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。

96 10
|
1月前
|
人工智能 自然语言处理 JavaScript
|

17种RAG实现方法大揭秘

RAG(检索增强生成)通过结合外部知识库与LLM生成能力,有效解决大模型知识滞后与幻觉问题。本文详解三类策略、17种实现方案,涵盖文档分块、检索排序与反馈机制,并提供工程选型指南,助力构建高效智能系统。

294 0
|
3月前
|
前端开发 Java 数据库连接
|

一个完整 Java 项目常包含的各层次详解与全面解析

本内容介绍了Java项目的典型分层架构,涵盖开放接口层、终端显示层、Web层、Service层、Manager层、Mapper层及常用辅助层次,如实体层、DTO层、VO层等。通过合理划分各层职责,结合Spring Boot等框架,实现系统的高内聚、低耦合,提升可维护性与扩展性,适用于微服务与MVC架构设计。

343 0
|
4月前
|
人工智能 JSON 安全
|

VIN码查询_标准版API:帮助解锁车辆的“身份证”详细信息的实战指南

VIN码(车辆识别号码)是由17位字母和数字组成的全球唯一编码,相当于汽车的“身份证”。通过解析VIN码,可获取品牌、车系、生产年份等关键信息。探数API平台的VIN码查询API(标准版),只需输入VIN码即可返回完整车辆配置信息。 该API适用于多种场景:电商平台可自动填充商品详情,提升准确性;维修行业能精准匹配零件与诊断需求;二手车市场则增强交易透明度与安全性。其调用流程简单,包括准备VIN码、构造请求、处理响应及异常处理。 VIN码不仅是查询工具,更是连接制造、销售、维修、保险等环节的纽带。

348 6
|
4月前
|
SQL 关系型数据库 MySQL
|

Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持

Apache Flink CDC 3.4.0 版本正式发布!经过4个月的开发,此版本强化了对高频表结构变更的支持,新增 batch 执行模式和 Apache Iceberg Sink 连接器,可将数据库数据全增量实时写入 Iceberg 数据湖。51位贡献者完成了259次代码提交,优化了 MySQL、MongoDB 等连接器,并修复多个缺陷。未来 3.5 版本将聚焦脏数据处理、数据限流等能力及 AI 生态对接。欢迎下载体验并提出反馈!

768 1
来自: 实时计算 Flink  版块
|
5月前
|
数据采集 JSON API
|

Python 实战!利用 API 接口获取小红书笔记详情的完整攻略

小红书笔记详情API接口帮助商家和数据分析人员获取笔记的详细信息,如标题、内容、作者信息、点赞数等,支持市场趋势与用户反馈分析。接口通过HTTP GET/POST方式请求,需提供`note_id`和`access_token`参数,返回JSON格式数据。以下是Python示例代码,展示如何调用该接口获取数据。使用时请遵守平台规范与法律法规。

597 0
|
5月前
|
缓存 并行计算 PyTorch
|

PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制

本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。

911 0
|
7月前
|
SQL 存储 HIVE
|

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。

638 1
来自: 实时计算 Flink  版块
|
7月前
|
数据采集 存储 数据挖掘
|

深入剖析 Python 爬虫:淘宝商品详情数据抓取

深入剖析 Python 爬虫:淘宝商品详情数据抓取

651 3
|
11月前
|
数据采集 API 开发者
|

拼多多API接口怎么申请

拼多多API接口申请步骤简述:首先访问拼多多开放平台并注册账号,选择开发者类型并填写资料,审核通过后创建应用并申请API接口权限,等待审核结果,获取API密钥等信息。完成后,即可使用拼多多API接口进行开发,注意遵守相关规定。

2660 0
|
11月前
|
自然语言处理 资源调度 前端开发
|

前端大模型入门(四):不同文本分割器对比和效果展示-教你如何根据场景选择合适的长文本分割方式

本文详细介绍了五种Langchain文本分割器:`CharacterTextSplitter`、`RecursiveCharacterTextSplitter`、`TokenTextSplitter`、`MarkdownTextSplitter` 和 `LatexTextSplitter`,从原理、优缺点及适用场景等方面进行了对比分析,旨在帮助开发者选择最适合当前需求的文本分割工具,提高大模型应用的处理效率和效果。

1791 1
|
人工智能 自然语言处理 搜索推荐
|

国内可用的 Web Search API,可以平替Bing Search API

近期人们发现,AI对搜索引擎的需求远远超过人类。这个团队专为AI打造搜索引擎,上线仅60天就已被调用超30万次。

3425 1
|
机器学习/深度学习 人工智能 自然语言处理
|

大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展

在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成的法则:模型大小、训练数据和计算能力。通过理解这些因素如何相互作用和规模化,我们将获得关于人工智能语言模型过去、现在和未来的宝贵见解。

1343 7