|
SQL 数据采集 存储
|

Hive实战 —— 电商数据分析(全流程详解 真实数据)

关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。

2647 1
|
人工智能 并行计算 PyTorch
|

Stable Diffusion 本地部署教程:详细步骤与常见问题解析

【4月更文挑战第12天】本教程详细介绍了如何在本地部署Stable Diffusion模型,包括安装Python 3.8+、CUDA 11.3+、cuDNN、PyTorch和torchvision,克隆仓库,下载预训练模型。配置运行参数后,通过运行`scripts/run_diffusion.py`生成图像。常见问题包括CUDA/CuDNN版本不匹配、显存不足、API密钥问题、模型加载失败和生成质量不佳,可按教程提供的解决办法处理。进阶操作包括使用自定义提示词和批量生成图像。完成这些步骤后,即可开始Stable Diffusion的AI艺术创作。

2413 2
|
机器学习/深度学习 人工智能 自然语言处理
|

OpenAI Sora是什么?如何使用?新手小白必看

在AI领域不断迈向创新的今天,OpenAI引领了一系列令人瞩目的技术进步。今天,我想向大家介绍一个名为Sora的全新产品——一个革命性的视频创作工具,旨在为内容创作者、艺术家和企业提供前所未有的便利和创作能力。

737 0
|
存储 Go 开发者
|

Golang深入浅出之-Go语言字符串操作:常见函数与面试示例

【4月更文挑战第20天】Go语言字符串是不可变的字节序列,采用UTF-8编码。本文介绍了字符串基础,如拼接(`+`或`fmt.Sprintf()`)、长度与索引、切片、查找与替换(`strings`包)以及转换与修剪。常见问题包括字符串不可变性、UTF-8编码处理、切片与容量以及查找与替换的边界条件。通过理解和实践这些函数及注意事项,能提升Go语言编程能力。

485 0
|
机器学习/深度学习 PyTorch 算法框架/工具
|

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。

1245 9
|
存储 人工智能 自然语言处理
|

知识图谱与大模型双向驱动的关键问题和应用探索

图谱技术积极拥抱新一代AI技术体系,如大模型(Large Language Model, LLM),实现二者的双驱动增强,定义融合互通的技术范式和关键问题,借助LLM强大的语言理解能力,为基于非/半结构化数据的图谱构建提效,同时在用户问答中,语言要素和语义结构的理解也会更加精准。

787 0
|
数据采集 人工智能 安全
|

ISO关于AI的监管政策

【1月更文挑战第20天】ISO关于AI的监管政策

388 2
|
机器学习/深度学习 资源调度 数据可视化
|

Mamba详细介绍和RNN、Transformer的架构可视化对比

Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。

1150 2
|
机器学习/深度学习 JSON 自然语言处理
|

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源!

随着深度学习大语言模型的不断发展,其模型结构和量级在快速演化,依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗的算力发挥出来,还要应对大模型的持续迭代。开发简单易用的大模型训练工具就成了应对以上问题广受关注的技术方向,让开发者专注于大模型解决方案的开发,降低大模型训练加速性能优化和训练/推理全流程搭建的人力开发成本。阿里云机器学习平台PAI开源了业内较早投入业务应用的大模型训练工具Pai-Megatron-Patch,本文将详解Pai-Megatron-Patch的设计原理和应用。

2949 86
来自: 人工智能平台PAI  版块
|
存储 分布式计算 Cloud Native
|

阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

本文整理自阿里云 EMR 数据开发团队负责人孙一凡(Evans 忆梵),在 Apache Spark & DS Meetup 的分享

1669 1
|
Web App开发 消息中间件 机器学习/深度学习
|

Flink Unaligned Checkpoint 在 Shopee 的优化和实践

介绍 Shopee 对 Unaligned Checkpoint 的改进、对 Flink 社区的贡献以及内部的实践和落地。

1731 3
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 运维
|

开放搜索电商行业模版驱动业务增长实践

阿里巴巴技术专家介绍如何通过开放搜索电商行业增强版,快速构建更高水准的搜索服务,带动业务指数级增长。

2598 0
来自: 智能搜索推荐  版块
|
SQL 消息中间件 缓存
|

基于 Flink SQL CDC 的实时数据同步方案

Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的数据同步方案,基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。

52315 7
来自: 实时计算 Flink  版块
|
存储 分布式计算 资源调度
|

Hadoop社区比 Ozone 更重要的事情

本文回顾了最近几年Hadoop项目的发展,着重探讨个人对Ozone的看法和理解,不求正确,引玉而已,欢迎业内专家拍砖讨论。

2595 0
|
30天前
|
存储 人工智能 数据库
|

向量存储vs知识图谱:LLM记忆系统技术选型

本文探讨LLM长期记忆系统的构建难点与解决方案,对比向量检索与知识图谱架构优劣,分析Zep、Mem0、Letta等开源框架,并提供成本优化策略,助力开发者实现高效、可扩展的AI记忆系统。

184 3
|
1月前
|
Cloud Native Serverless API
|

微服务架构实战指南:从单体应用到云原生的蜕变之路

🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。

202 4
|
2月前
|
数据可视化 大数据 数据挖掘
|

基于python大数据的招聘数据可视化分析系统

本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。

193 0
|
3月前
|
人工智能 前端开发 JavaScript
|

前端实现多方言实时转写:VAD端点检测+流式ASR接入,识别准确率提升300%

本文面向前端工程师,详解多方言中文自动语音识别(ASR)的完整落地接入方案,涵盖录音采集、音质增强、编码传输、流式识别、结果合并等关键技术环节,助力实现“即录即识、边说边出字”的实时交互体验。

431 6
|
3月前
|
自然语言处理 DataWorks 算法
|

数据开发再提速!DataWorks正式接入Qwen3-Coder

阿里云DataWorks平台正式接入Qwen3-Coder模型,用户通过Copilot智能助手可实现自然语言交互生成代码,提升数据开发效率。支持SQL/Python代码生成、优化及Notebook文件创建,适用于数据分析与算法构建,助力企业高效开发。

335 0
|
3月前
|
SQL 人工智能 数据挖掘
|

Apache Flink:从实时数据分析到实时AI

Apache Flink 是实时数据处理领域的核心技术,历经十年发展,已从学术项目成长为实时计算的事实标准。它在现代数据架构中发挥着关键作用,支持实时数据分析、湖仓集成及实时 AI 应用。随着 Flink 2.0 的发布,其在流式湖仓、AI 驱动决策等方面展现出强大潜力,正推动企业迈向智能化、实时化的新阶段。

381 9
来自: 实时计算 Flink  版块
|
4月前
|
存储 算法 安全
|

JAVA 八股文全网最详尽整理包含各类核心考点助你高效学习 jAVA 八股文赶紧收藏

本文整理了Java核心技术内容,涵盖Java基础、多线程、JVM、集合框架等八股文知识点,包含面向对象特性、线程创建与通信、运行时数据区、垃圾回收算法及常用集合类对比,附有代码示例与学习资料下载链接,适合Java开发者系统学习与面试准备。

957 0
|
5月前
|
SQL 存储 消息中间件
|

Trino权威指南

Trino(原Presto SQL)是一款开源分布式SQL查询引擎,专为大数据联邦查询设计。它支持秒级查询PB级数据,可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用,适合交互式分析与BI场景。Trino采用无共享架构,通过列式内存格式和动态代码生成优化性能,并提供丰富的连接器实现计算存储分离,最大化下推优化以提升效率。

876 3
|
6月前
|
算法 机器人 数据安全/隐私保护
|

基于双向RRT算法的三维空间最优路线规划matlab仿真

本程序基于双向RRT算法实现三维空间最优路径规划,适用于机器人在复杂环境中的路径寻找问题。通过MATLAB 2022A测试运行,结果展示完整且无水印。算法从起点和终点同时构建两棵随机树,利用随机采样、最近节点查找、扩展等步骤,使两棵树相遇以形成路径,显著提高搜索效率。相比单向RRT,双向RRT在高维或障碍物密集场景中表现更优,为机器人技术提供了有效解决方案。

359 3
|
7月前
|
数据可视化 数据挖掘 数据建模
|

数据可视化工具大比拼:从Tableau到Power BI,谁才是你的最佳拍档?

数据可视化工具大比拼:从Tableau到Power BI,谁才是你的最佳拍档?

874 12
|
9月前
|
机器学习/深度学习 自然语言处理 算法
|

Transformer 学习笔记 | Decoder

本文记录了笔者学习Transformer的过程,重点介绍了填充(padding)和掩码(masking)机制。掩码确保解码器只依赖于之前的位置,避免信息泄露,保持因果关系及训练与推理的一致性。通过线性层和softmax函数生成输出概率,并使用梯度下降和反向传播进行训练。评估指标包括BLEU、ROUGE、METEOR和困惑度等。欢迎指正。

747 2
|
9月前
|
人工智能 自然语言处理 监控
|

大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(LLMs)中的解码策略技术原理及其应用。通过深入分析贪婪解码、束搜索、采样技术等核心方法,以及温度参数、惩罚机制等优化手段,为研究者和工程师提供了全面的技术参考。文章详细探讨了不同解码算法的工作机制、性能特征和优化方法,强调了解码策略在生成高质量、连贯且多样化文本中的关键作用。实例展示了各类解码策略的应用效果,帮助读者理解其优缺点及适用场景。

856 20
|
10月前
|
机器学习/深度学习 运维 数据可视化
|

Python时间序列分析:使用TSFresh进行自动化特征提取

TSFresh 是一个专门用于时间序列数据特征自动提取的框架,支持分类、回归和异常检测等机器学习任务。它通过自动化特征工程流程,处理数百个统计特征(如均值、方差、自相关性等),并通过假设检验筛选显著特征,提升分析效率。TSFresh 支持单变量和多变量时间序列数据,能够与 scikit-learn 等库无缝集成,适用于大规模时间序列数据的特征提取与模型训练。其工作流程包括数据格式转换、特征提取和选择,并提供可视化工具帮助理解特征分布及与目标变量的关系。

637 16
|
12月前
|
存储 机器学习/深度学习 数据采集
|

物联网 GE-PREDIX

GE-Predix 是通用电气(GE)推出的一个工业互联网平台,旨在通过连接机器、数据与人,实现工业资产的智能管理和优化。该平台支持从设备监控到预测性维护等多种应用,助力企业提升运营效率和创新能力。

956 3
|
12月前
|
缓存 监控 Linux
|

linux进程管理万字详解!!!

本文档介绍了Linux系统中进程管理、系统负载监控、内存监控和磁盘监控的基本概念和常用命令。主要内容包括: 1. **进程管理**: - **进程介绍**:程序与进程的关系、进程的生命周期、查看进程号和父进程号的方法。 - **进程监控命令**:`ps`、`pstree`、`pidof`、`top`、`htop`、`lsof`等命令的使用方法和案例。 - **进程管理命令**:控制信号、`kill`、`pkill`、`killall`、前台和后台运行、`screen`、`nohup`等命令的使用方法和案例。

868 4
|
机器学习/深度学习 运维 分布式计算
|

大数据技术专业就业前景

大数据技术专业就业前景广阔,广泛应用于互联网、金融、医疗等众多行业,助力企业数字化转型。岗位涵盖大数据开发、分析、运维及管理,如大数据工程师、分析师和系统运维工程师等。这些岗位因专业性和稀缺性而享有优厚薪资,尤其在一线城市可达20万至50万年薪。随着技术进步和经验积累,从业者可晋升为高级职位或投身数据咨询、创业等领域,发展空间巨大。

1132 6
|
人工智能 数据可视化 数据挖掘
|

上海“爷叔”神话分析——爱在深秋

上海“爷叔”股市评论走红,言论影响巨大,分析显示其预测大多不准确,但个别时机准确,模拟操作获利,反映股市预测复杂性,强调投资需谨慎。

1414 3
来自: 数据可视化DataV  版块
|
存储 大数据 测试技术
|

用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响

在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。

1344 1
|
敏捷开发 数据可视化 持续交付
|

敏捷开发方法:理论与实践

【8月更文第22天】随着信息技术的发展,软件项目的复杂度不断提高,传统的瀑布式开发模式越来越难以适应快速变化的市场需求。为了解决这些问题,敏捷开发方法应运而生。本文将探讨敏捷开发的核心理念、敏捷宣言与原则、Scrum框架、Kanban方法以及相关的敏捷实践与工具。

1519 2
|
人工智能 自然语言处理 搜索推荐
|

阿里云Elasticsearch AI搜索实践

本文介绍了阿里云 Elasticsearch 在AI 搜索方面的技术实践与探索。

19819 21
|
机器学习/深度学习 数据可视化 网络架构
|

增强深度学习模型的可解释性和泛化能力的方法研究

【8月更文第15天】在深度学习领域,模型的准确率和预测能力是衡量模型好坏的重要指标。然而,随着模型复杂度的增加,它们往往变得越来越难以理解,这限制了模型在某些关键领域的应用,例如医疗诊断、金融风险评估等。本文将探讨如何通过几种方法来增强深度学习模型的可解释性,同时保持或提高模型的泛化能力。

1320 2
|
机器学习/深度学习 人工智能 自然语言处理
|

大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展

在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成的法则:模型大小、训练数据和计算能力。通过理解这些因素如何相互作用和规模化,我们将获得关于人工智能语言模型过去、现在和未来的宝贵见解。

1573 7
|
Java 开发者 Python
|

Python中,字符串(String)是一种不可变的数据类型

Python中,字符串(String)是一种不可变的数据类型

421 5
|
机器学习/深度学习 数据采集 算法
|

Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战

799 3
来自: 人工智能平台PAI  版块
|
敏捷开发 Java 测试技术
|

「架构」模型驱动架构设计方法及其运用

本文探讨了MDA在软件开发中的应用,从需求分析到测试,使用UML建模功能需求,通过PIM设计架构,自动生成代码以减少错误。MDA提升了可维护性、可扩展性和可移植性,通过工具如Enterprise Architect和Eclipse MDT支持自动化转换。虽然有挑战,如模型创建和平台转换,但结合敏捷方法和适当工具能有效解决,从而提高开发效率和软件质量。

1301 0
|
机器学习/深度学习 存储 编解码
|

Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色

IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。

715 1
|
存储 人工智能 安全
|

大环境下AI发展迅速,如何保证AI的安全问题?

保障AI安全的关键措施包括:数据隐私保护(加密、访问控制、脱敏、共享协议)、模型安全(验证、鲁棒性、监测、更新)、用户信息保护(透明收集、匿名化、保密协议)、网络安全(实时监测、防护措施)和合规伦理(遵守法规、融入设计)。此外,安全培训和意识提升也是重要一环。多角度策略确保AI技术的安全、健康和可持续发展。

2459 0
|
SQL 存储 分布式计算
|

流批一体技术简介

本文由阿里云 Flink 团队苏轩楠老师撰写,旨在向 Flink 用户整体介绍 Flink 流批一体的技术和挑战。

51135 3
来自: 实时计算 Flink  版块
|
SQL Kubernetes 调度
|

【技术解析 | 实践】部署Kubernetes模式的Havenask集群

本次分享内容为havenask的kubernetes模式部署,由下面2个部分组成(部署Kubernetes模式Havenask集群、 Kubernetes模式相关问题排查),希望可以帮助大家更好了解和使用Havenask。

59928 9
来自: 智能搜索推荐  版块
|
SQL 分布式计算 Hadoop
|

利用Hive与Hadoop构建大数据仓库:从零到一

【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。

1712 1
|
API 开发者
|

1688API接口推荐:1688口令转换真实链接接口

1688平台的item_password接口用于将淘口令短链接转为商品链接。开发者需注册获取API key和secret,通过POST或GET请求接口,输入淘口令代码和参数,返回结果包含商品ID和详细链接。商品详情可进一步通过商品详情接口获取。注意遵守1688平台的规定和条款,确保合法使用API。

569 0
|
人工智能 搜索推荐 固态存储
|

数字人SaaS系统源码部署,轻松实现直播带货!

数字人直播带货

1100 3
|
存储 分布式计算 Apache
|

构建 Streaming Lakehouse:使用 Paimon 和 Hudi 的性能对比

Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文将在阿里云EMR 上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,然后分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。

60149 9
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 Python
|

Python高级算法——支持向量机(Support Vector Machine,SVM)

Python高级算法——支持向量机(Support Vector Machine,SVM)

849 2
|
机器学习/深度学习 传感器 自动驾驶
|

未来之路:大模型技术在自动驾驶的应用与影响

本文深入分析了大模型技术在自动驾驶领域的应用和影响,万字长文,慢慢观看~ 文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。 接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制和预训练-微调范式。 文章还介绍了大模型在任务适配性、模型变革和应用前景方面的潜力。 在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。 最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策层面提供赋能,突出了其在该领域的重要性和影响力。

2170 56
|
存储 运维 监控
|

深度解读阿里云 Elasticsearch Serverless 服务如何实现超高性价比

阿里云 Elasticsearch Serverless 商业化版本正式上线,在帮助用户快速构建数据检索与分析应用的同时,提供按实际资源用量付费的付费体验,与自建相比大幅降低成本,助力用户快速上云!

3165 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

2
今日
67363
内容
127
活动
439359
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 日志服务
  • 检索分析服务 Elasticsearch版