|
人工智能 自然语言处理 搜索推荐
|

全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。

1342 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 自然语言处理 数据可视化
|

MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型

MOIRAI 是 Salesforce 开发的早期时间序列基础模型,凭借出色的基准测试性能和开源的大规模预训练数据集 LOTSA 获得广泛关注。最新升级版本 MOIRAI-MOE 引入混合专家模型(Mixture of Experts, MOE),在模型性能上实现显著提升。本文深入分析 MOIRAI-MOE 的技术架构与实现机制,对比其与原版 MOIRAI 的差异,探讨 MOE 在提升预测准确率和处理频率变化问题上的作用,并展示其在分布内和零样本预测中的优异表现。实验结果显示,MOIRAI-MOE 以更少的激活参数量实现了更高的性能提升,成为时间序列预测领域的重要里程碑。

991 12
|
存储 数据采集 数据库
|

Python爬虫实战:股票分时数据抓取与存储

Python爬虫实战:股票分时数据抓取与存储

1800 5
|
JSON API 数据安全/隐私保护
|

虾皮(shopee)商品详情接口(虾皮 API 系列)

Shopee 商品详情接口(item_get)用于获取商品的标题、价格、描述、库存和图片等详细信息。开发者需使用 Shopee 提供的 API 密钥进行认证,通过 GET 请求访问指定 URL。请求参数包括 partner_id、shopid、itemid、timestamp 和 sign。签名生成需按字母顺序排序参数,拼接后与 API 密钥进行 HMAC-SHA256 加密。响应为 JSON 格式,包含商品详细信息及错误提示。注意妥善保管 API 密钥,并遵守请求频率限制。

1399 2
|
机器学习/深度学习
|

知识蒸馏技术原理详解:从软标签到模型压缩的实现机制

**知识蒸馏**是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。本文将深入探讨知识迁移的具体实现机制。

1760 12
|
PyTorch 算法框架/工具 芯片
|

新手入门:DGL在昇腾上的安装问题

本文介绍了在aarch64架构和Python 3.10环境下安装DGL(Deep Graph Library)的过程。首先通过`uname -a`确认硬件架构,接着使用`python --version`检查Python版本。为确保兼容性,从指定链接下载适合的whl包或通过pip安装dgl。过程中遇到了torchdata版本不兼容的问题,通过降级torchdata至0.7.1版本解决。此外,针对NPU芯片适配,重新安装了与CANN 8.0.RC2兼容的torch和torch_npu组件。最终成功导入dgl包并准备进行模型训练验证。

1190 14
|
机器学习/深度学习 存储 数据管理
|

面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现

循环状态空间模型(Recurrent State Space Models, RSSM)由 Danijar Hafer 等人提出,是现代基于模型的强化学习(MBRL)中的关键组件。RSSM 旨在构建可靠的环境动态预测模型,使智能体能够模拟未来轨迹并进行前瞻性规划。本文介绍了如何用 PyTorch 实现 RSSM,包括环境配置、模型架构(编码器、动态模型、解码器和奖励模型)、训练系统设计(经验回放缓冲区和智能体)及训练器实现。通过具体案例展示了在 CarRacing 环境中的应用,详细说明了数据收集、训练过程和实验结果。

1123 13
|
SQL 存储 Apache
|

基于 Flink 进行增量批计算的探索与实践

本文整理自阿里云高级技术专家、Apache Flink PMC朱翥老师在Flink Forward Asia 2024的分享,内容分为三部分:背景介绍、工作介绍和总结展望。首先介绍了增量计算的定义及其与批计算、流计算的区别,阐述了增量计算的优势及典型需求场景,并解释了为何选择Flink进行增量计算。其次,详细描述了当前的工作进展,包括增量计算流程、执行计划生成、控制消费数据量级及执行进度记录恢复等关键技术点。最后,展示了增量计算的简单示例、性能测评结果,并对未来工作进行了规划。

1329 6
来自: 实时计算 Flink  版块
|
数据采集 人工智能 运维
|

从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践

本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。

1156 5
|
存储 关系型数据库 BI
|

实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓

实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。

1294 7
|
存储 人工智能 算法
|

深度解读面向大模型开发和应用的数据处理套件

本文深入解读了大数据与AI联合场景下的技术,重点探讨了大语言模型、多模态模型训练及应用数据处理。文章首先分析了算法、算力和数据在大模型训练中的重要性,强调数据采集、标注和质量控制的关键作用。接着介绍了PAI平台上的端到端数据处理套件,涵盖预训练、有监督微调和偏好对齐的数据处理流程,以及数据合成和蒸馏技术的应用。最后展望了未来在多模态处理、性能优化和行业解决方案方面的扩展方向。

1063 3
来自: 人工智能平台PAI  版块
|
JSON 数据库 数据格式
|

[开发技巧] 如何获取汉字笔画数?

在开发卜筮小脚本时遇到获取汉字笔画数的需求,起初尝试使用`pypinyin`库却未得理想结果。经过探索,发现Unicode联盟维护的Unihan数据库提供准确的汉字笔画数据。通过下载Unihan数据库文件,解析其中的`kTotalStrokes`字段,利用正则表达式提取所需信息,并将其保存为JSON格式以供快速查询。最终编写函数`get_character_stroke_count`实现任意汉字笔画数的高效获取,满足了项目需求并提供了准确的数据支持。此方法不仅解决了问题,还为类似需求提供了参考方案。

847 10
|
存储 SQL 人工智能
|

Apache Flink 2.0:Streaming into the Future

本文整理自阿里云智能高级技术专家宋辛童、资深技术专家梅源和高级技术专家李麟在 Flink Forward Asia 2024 主会场的分享。三位专家详细介绍了 Flink 2.0 的四大技术方向:Streaming、Stream-Batch Unification、Streaming Lakehouse 和 AI。主要内容包括 Flink 2.0 的存算分离云原生化、流批一体的 Materialized Table、Flink 与 Paimon 的深度集成,以及 Flink 在 AI 领域的应用。

1759 13
来自: 实时计算 Flink  版块
|
IDE Java 应用服务中间件
|

Java“NoSuchFieldError”解决

“NoSuchFieldError”是Java中常见的运行时错误,通常由于访问不存在的类字段引起。解决方法包括:检查字段拼写、确保类路径正确、更新依赖库版本等。

2082 5

贝叶斯统计中常见先验分布选择方法总结

本文详细介绍了贝叶斯统计中三种常见的先验分布选择方法:经验贝叶斯方法、信息先验和无信息/弱信息先验。

839 3
|
机器学习/深度学习 弹性计算 人工智能
|

大模型进阶微调篇(三):微调GPT2大模型实战

本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。

3106 6
来自: 人工智能平台PAI  版块
|
人工智能 算法 安全
|

深度讲解-互联网算法备案指南和教程

随着人工智能和大数据技术的发展,互联网算法在内容推荐、用户画像等领域日益重要,但也带来了安全风险和合规挑战。国家互联网信息办公室为此发布了《互联网算法备案管理规定》,要求具有舆论属性或社会动员能力的互联网信息服务提供者进行算法备案,以确保算法透明性和合规性,维护网络健康秩序。唯安创远AI合规专家将解析备案的必要性、流程及其对企业的影响,帮助企业顺利完成备案。

1408 3
来自: 人工智能平台PAI  版块
|
存储 数据采集 OLAP
|

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

饿了么的实时数仓经历了多个阶段的演进。初期通过实时ETL、报表应用、联动及监控构建基础架构,随后形成了涵盖数据采集、加工和服务的整体数据架构。1.0版本通过日志和Binlog采集数据,但在研发效率和数据一致性方面存在问题。2.0版本通过Dataphin构建流批一体化系统,提升了数据一致性和研发效率,但仍面临新业务适应性等问题。最终,饿了么选择Paimon和StarRocks作为实时湖仓方案,显著降低了存储成本并提高了系统稳定性。未来,将进一步优化带宽瓶颈、小文件问题及权限控制,实现更多场景的应用。

1639 8
来自: 实时计算 Flink  版块
|
存储 SQL 大数据
|

用实时计算释放当下企业大数据潜能

本文整理自阿里云高级产品解决方案架构师王启华(敖北)老师在 Flink Forward Asia 2023 中闭门会的分享。

1026 8
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 PyTorch
|

PyTorch 中的动态图与静态图:理解它们的区别及其应用场景

【8月更文第29天】深度学习框架中的计算图是构建和训练神经网络的基础。PyTorch 支持两种类型的计算图:动态图和静态图。本文旨在阐述这两种计算图的区别、各自的优缺点以及它们在不同场景下的应用。

4071 0
|
SQL Java 关系型数据库
|

实时数仓 Hologres产品使用合集之如何安装和使用Java SDK

实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

588 3
来自: 实时数仓 Hologres  版块
|
数据采集 监控 大数据
|

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式,它通过互联网服务提供商(ISP)池获取真实住宅用户的IP地址。在此背景下,住宅IP通常与特定的物理位置绑定,从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

1433 1

经济生产批量(Economic Production Quantity,EPQ)

经济生产批量(Economic Production Quantity,EPQ)

2241 3
|
数据采集 机器学习/深度学习 算法
|

Python实现多元线性回归模型(statsmodels OLS算法)项目实战

Python实现多元线性回归模型(statsmodels OLS算法)项目实战

2474 2
来自: 人工智能平台PAI  版块
|
数据采集 机器学习/深度学习 算法
|

Python基于Apriori关联规则算法实现商品零售购物篮分析

Python基于Apriori关联规则算法实现商品零售购物篮分析

1385 0
来自: 人工智能平台PAI  版块
|
IDE PHP 开发工具
|

「Python入门」python环境搭建及VScode使用python运行方式

**Python 概述与环境搭建摘要** Python是一种解释型、面向对象、交互式的脚本语言,以其简单易学和丰富库著称。安装Python时,推荐在Windows上选择.exe安装程序,记得勾选“Add Python to PATH”。安装完成后,通过环境变量配置确保Python可被系统识别。验证安装成功,可在CMD中输入`python --version`。Visual Studio Code (VScode)是流行的Python IDE,安装Python插件并选择解释器后,可直接在VScode内编写和运行Python代码。

1161 0
|
数据采集 自然语言处理 大数据
|

​「Python大数据」LDA主题分析模型

使用Python进行文本聚类,流程包括读取VOC数据、jieba分词、去除停用词,应用LDA模型(n_components=5)进行主题分析,并通过pyLDAvis生成可视化HTML。关键代码涉及数据预处理、CountVectorizer、LatentDirichletAllocation以及HTML文件的本地化处理。停用词和业务术语列表用于优化分词效果。

1172 0
|
人工智能 编解码 自然语言处理
|

通义万相功能使用实战

【7月更文第2天】阿里云的通义万相是款AI绘画工具,让用户通过文本描述创建个性化头像。首先,注册阿里云账号并登录平台。明确头像风格、特征和背景,然后在平台上选择“文本生成图像”,输入详细描述。设定尺寸后提交生成。系统会提供多个选项,用户可选择、调整或重新生成。满意后下载头像,应用于社交平台。记得提供清晰的描述以获取最佳效果,勇于探索不同的创意组合。通义万相,让AI助你实现艺术想象。

1675 0
|
数据采集 分布式计算 大数据
|

森马基于MaxCompute+Hologres+DataWorks构建数据中台

本次案例主要分享森马集团面对多年自建的多套数仓产品体系,通过阿里云MaxCompute+Hologres+DataWorks统一数仓平台,保障数据生产稳定性与数据质量,减少ETL链路及计算时间,每年数仓整体费用从300多万降到180万。

2732 11
来自: 实时数仓 Hologres  版块
|
Java 测试技术
|

Java一分钟之-JUnit测试框架:断言与测试套件

【6月更文挑战第3天】本文介绍了JUnit在Java单元测试中的应用,包括断言基础如`assertEquals`、`assertTrue`等,用于验证代码预期结果;利用`@Suite`创建测试套件以组合多个测试;并讨论了常见问题及解决方法,如忽略测试、错误断言、异常处理和保持测试简洁。理解并熟练运用这些概念能提升测试代码的质量和效率。

576 2
|
Python
|

新手向 Python:VsCode环境下Manim配置

该文介绍了如何准备和配置开发环境以使用Manim,主要包括两个步骤:一是准备工作,需要下载并安装VsCode和Anaconda,其中Anaconda需添加到系统PATH环境变量,并通过清华镜像源配置;二是配置环境,VsCode中安装中文插件和Python扩展,激活并配置虚拟环境。最后,安装ffmpeg和manim,通过VsCode运行测试代码验证配置成功。

2104 1
|
网络安全
|

IDEA 提交代码到 GitHub 时发生错误

摘要: 在遇到访问 GitHub 时的错误,这两个命令分别用于处理 SSL 连接问题和连接超时问题。

706 3
|
SQL BI HIVE
|

【Hive SQL 每日一题】统计用户留存率

用户留存率是衡量产品成功的关键指标,表示用户在特定时间内持续使用产品的比例。计算公式为留存用户数除以初始用户数。例如,游戏发行后第一天有10000玩家,第七天剩5000人,第一周留存率为50%。提供的SQL代码展示了如何根据用户活动数据统计每天的留存率。需求包括计算系统上线后的每日留存率,以及从第一天开始的累计N日留存率。通过窗口函数`LAG`和`COUNT(DISTINCT user_id)`,可以有效地分析用户留存趋势。

2070 1
|
机器学习/深度学习 人工智能 PyTorch
|

人工智能平台PAI 操作报错合集之机器学习PAI,用Triton Inference Server 22.05 部署模型,遇到SaveV3这个op的问题,如何解决

阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

1489 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 算法 测试技术
|

Python中实现多层感知机(MLP)的深度学习模型

Python中实现多层感知机(MLP)的深度学习模型

1233 0
|
机器人 iOS开发
|

空间音频是什么?

从单声道音频发展到双声道、再到多声道和环绕立体声,数字音频的表现力不断提升。空间音频(也称为三维声音或3D音频)并不只是通过增加声道来创造立体感,而是一种与视频空间化同步的音频处理过程。基于空间的音频甚至可以具有六个自由度,使用户能够互动。声音不仅要清晰动听,还要与空间场景完美契合,带来沉浸式体验。让我们一起深入了解一下空间音频技术。

2612 0
|
存储 分布式计算 数据可视化
|

实时数仓 Hologres产品使用合集之报错:ORCA failed to produce a plan : PlStmt Translation: Group by key is type of imprecise not supported如何解决

实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

1413 0
来自: 实时数仓 Hologres  版块
|
机器学习/深度学习 算法 Python
|

LightGBM中的特征选择与重要性评估

LightGBM中的特征选择与重要性评估【2月更文挑战第1天】

2976 0
|
自然语言处理 算法 OLAP
|

阿里云PAI大模型RAG对话系统最佳实践

本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。

118934 207
来自: 人工智能平台PAI  版块
|
存储 自然语言处理 算法
|

Tokenization 指南:字节对编码,WordPiece等方法Python代码详解

在2022年11月OpenAI的ChatGPT发布之后,大型语言模型(llm)变得非常受欢迎。从那时起,这些语言模型的使用得到了爆炸式的发展,这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。

705 3
|
编解码
|

MATLAB | 科研绘图第十一期动态趋势图

MATLAB | 科研绘图第十一期动态趋势图

489 0
|
SQL 分布式计算 NoSQL
|

快速实践: 通过 Flink CDC 一键整库同步 MongoDB 到 Paimon

Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。

77898 4
来自: 实时计算 Flink  版块
|
存储 Java Maven
|

IDEA常用插件之类Jar包搜索Maven Search

IDEA常用插件之类Jar包搜索Maven Search

1913 0
|
机器学习/深度学习 算法 计算机视觉
|

旋转目标检测【1】如何设计深度学习模型

平常的目标检测是平行的矩形框,“方方正正”的;但对于一些特殊场景(遥感),需要倾斜的框,才能更好贴近物体,旋转目标检测来啦~

1932 0
|
机器学习/深度学习 PyTorch TensorFlow
|

TensorRT 模型加速——输入、输出、部署流程

本文首先简要介绍 Tensor RT 的输入、输出以及部署流程,了解 Tensor RT 在部署模型中起到的作用。然后介绍 Tensor RT 模型导入流程,针对不同的深度学习框架,使用不同的方法导入模型。

3891 1

浅谈RISC-V指令集的基本指令格式和立即数操作

在以前的文章中,我分享了RISC-V在设计的初衷,除了可以被通用软件开发使用之外,还有一个目的就是,可以支持更多定制化的设计。也就是说,用户可以在基本指令集上面,进行一个或者多个的指令集扩展操作,但是有一个条件,不能再重新定义基本指令集。也就是说,任何一款基于RISC-V指令集的处理器,都要能够支撑整数基本指令集。可以看出基本指令集的重要性。

2085 0
|
Web App开发 Linux 开发工具
|

Centos7 yum 安装chrome

Centos7 yum 安装chrome配置yum源vim /etc/yum.repos.d/google-chrome.repo写入以下内容[google-chrome]name=google-chromebaseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearchenabled=1gpgcheck=1gpgkey=http...

1419 0
|
数据采集 运维 数据管理
|

数据管理能力成熟度模型

为促进大数据产业持续深入发展,提高政府、企事业单位大数据资产管理意识,借鉴国内外成熟度相关理论思想,结合数据生命周期管理各个阶段的特征,对数据管理能力进行了分析、总结,提炼出组织数据管理的八大过程域,并对每项能力进行了二级过程域和发展等级的划分以及相关功能介绍和评定标准的制定。

1906 1
|
机器学习/深度学习 前端开发 测试技术
|

智能语音技术的相关技术(二)

智能语音技术的相关技术(二)

990 0
|
Python
|

关于抓包问题,这里以美团为例。

该文章主要提供交流学习使用,请勿利用其进行不当行为! 如本篇文章侵犯了贵公司的隐私,请联系我立刻删除!

2701 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69527
内容
128
活动
439959
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务