|
存储 人工智能 算法
|

深度解读面向大模型开发和应用的数据处理套件

本文深入解读了大数据与AI联合场景下的技术,重点探讨了大语言模型、多模态模型训练及应用数据处理。文章首先分析了算法、算力和数据在大模型训练中的重要性,强调数据采集、标注和质量控制的关键作用。接着介绍了PAI平台上的端到端数据处理套件,涵盖预训练、有监督微调和偏好对齐的数据处理流程,以及数据合成和蒸馏技术的应用。最后展望了未来在多模态处理、性能优化和行业解决方案方面的扩展方向。

1058 3
来自: 人工智能平台PAI  版块
|
运维 监控 安全
|

代理IP故障排查技巧汇总及实战经验分享

在信息化时代,互联网不可或缺。使用HTTP动态代理IP时,快速排查故障至关重要。主要步骤包括:1. 检查代理IP有效性(Ping测试、HTTP请求测试);2. 监控连接速度(延迟和带宽测试);3. 分析错误信息(HTTP状态码、日志);4. 检查代理设置(配置文件、协议支持);5. 使用调试工具(Wireshark、浏览器开发者工具);6. 咨询服务提供商;7. 检查网络环境(防火墙、ISP限制);8. 逐步排查并记录变化。这些技巧能有效找出并解决问题。

1216 10
来自: 大数据计算 MaxCompute  版块
|
数据可视化 算法 数据挖掘
|

Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析

蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。

1179 15
|
机器学习/深度学习 人工智能 算法
|

深入解析图神经网络:Graph Transformer的算法基础与工程实践

Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。

2169 30

净利润断层策略

净利润断层策略通过分析公司财报公布后股价的异常波动来选股。当财报超预期且股价跳空高开时,视为买入信号。本文介绍了使用Python和Akshare库实现该策略的具体步骤,包括安装库、获取数据、识别断层及筛选股票等。

1024 0
|
传感器 数据采集 监控
|

物联网 GE-PREDIX

GE-Predix 是一个由通用电气公司开发的工业互联网平台,旨在为工业设备提供连接、分析和管理服务。它支持设备数据的收集与分析,帮助企业优化运营效率,实现智能化转型。

1160 2
|
数据采集 监控 异构计算
|

transformers+huggingface训练模型

本教程介绍了如何使用 Hugging Face 的 `transformers` 库训练一个 BERT 模型进行情感分析。主要内容包括:导入必要库、下载 Yelp 评论数据集、数据预处理、模型加载与配置、定义训练参数、评估指标、实例化训练器并开始训练,最后保存模型和训练状态。整个过程详细展示了如何利用预训练模型进行微调,以适应特定任务。

1160 3
|
网络协议 程序员 数据库
|

什么是公网IP和内网IP

【10月更文挑战第27天】公网IP与内网IP是网络通信中的两个重要概念。公网IP是互联网上的唯一标识,而内网IP仅在局域网内部有效,用于局域网内的设备通信。由于IPv4地址资源有限,通常一个公司或家庭只有一个公网IP,内部设备通过NAT(网络地址转换)技术共享该公网IP访问互联网。这样不仅节省了IP资源,还提高了网络安全性和稳定性。

1748 0
|
搜索推荐 安全
|

如果您干不动跨境外贸独立站,可以来看看反向海淘代购模式

反向海淘代购模式是指海外消费者通过国内电商平台购买中国商品,再由代购方负责采购、质检、包装和国际运输。该模式商品丰富、价格竞争力强,能满足个性化需求,但也面临物流成本高、海关政策复杂等挑战。

1125 2
|
人工智能 算法 物联网
|

企业级RAG全链路优化关键技术

本文深入解析了企业级RAG全链路的关键技术、效果优化、性能优化及应用实践。

3061 2
|
Python
|

【10月更文挑战第10天】「Mac上学Python 20」小学奥数篇6 - 一元一次方程求解

本篇将通过 Python 和 Cangjie 双语讲解如何求解一元一次方程。通过这道题,学生将掌握如何用编程实现方程求解,并体验基本的代数计算。

781 1
|
机器学习/深度学习 数据可视化 数据挖掘
|

机器学习中空间和时间自相关的分析:从理论基础到实践应用

空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。

1096 0
|
机器学习/深度学习 PyTorch 算法框架/工具
|

图像数据增强库综述:10个强大图像增强工具对比与分析

在深度学习和计算机视觉领域,数据增强是提升模型性能和泛化能力的关键技术。本文全面介绍了10个广泛使用的图像数据增强库,分析其特点和适用场景,帮助研究人员和开发者选择最适合需求的工具。这些库包括高性能的GPU加速解决方案(如Nvidia DALI)、灵活多功能的Albumentations和Imgaug,以及专注于特定框架的Kornia和Torchvision Transforms。通过详细比较各库的功能、特点和适用场景,本文为不同需求的用户提供丰富的选择,助力深度学习项目取得更好的效果。选择合适的数据增强库需考虑性能需求、任务类型、框架兼容性及易用性等因素。

2275 10
|
机器学习/深度学习 人工智能 测试技术
|

VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测

构建预训练时间序列模型的主要挑战在于获取高质量、多样化的时间序列数据。目前有两种方法:迁移学习LLM(如GPT-4或Llama)和从零训练。尽管迁移学习可行,但效果有限;从零训练则依赖大量数据,如MOIRAI、TimesFM和TTM等模型所示。为解决这一难题,研究人员提出利用图像数据进行时间序列预测。

1152 11
|
人工智能 算法 安全
|

深度讲解-互联网算法备案指南和教程

随着人工智能和大数据技术的发展,互联网算法在内容推荐、用户画像等领域日益重要,但也带来了安全风险和合规挑战。国家互联网信息办公室为此发布了《互联网算法备案管理规定》,要求具有舆论属性或社会动员能力的互联网信息服务提供者进行算法备案,以确保算法透明性和合规性,维护网络健康秩序。唯安创远AI合规专家将解析备案的必要性、流程及其对企业的影响,帮助企业顺利完成备案。

1405 3
来自: 人工智能平台PAI  版块
|
存储 大数据 测试技术
|

用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响

在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。

1927 1
|
SQL Java 关系型数据库
|

实时数仓 Hologres产品使用合集之如何安装和使用Java SDK

实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

584 3
来自: 实时数仓 Hologres  版块

Unity精华☀️点乘、叉乘终极教程:用《小小梦魇》讲解这个面试题~

Unity精华☀️点乘、叉乘终极教程:用《小小梦魇》讲解这个面试题~

641 2
|
机器学习/深度学习 PyTorch 算法框架/工具
|

VQ-VAE:矢量量化变分自编码器,离散化特征学习模型

VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。

1630 10

经济生产批量(Economic Production Quantity,EPQ)

经济生产批量(Economic Production Quantity,EPQ)

2238 3
|
算法 Java C++
|

《经典图论算法》迪杰斯特拉算法(Dijkstra)

这个是求最短路径的迪杰斯特拉算法,另外我还写了50多种《经典图论算法》,每种都使用C++和Java两种语言实现,熟练掌握之后无论是参加蓝桥杯,信奥赛,还是其他比赛,或者是面试,都能轻松应对。

1023 0
|
数据采集 机器学习/深度学习 算法
|

Python基于Apriori关联规则算法实现商品零售购物篮分析

Python基于Apriori关联规则算法实现商品零售购物篮分析

1379 0
来自: 人工智能平台PAI  版块
|
数据采集 机器学习/深度学习 数据可视化
|

数据挖掘实战:Python在金融数据分析中的应用案例

Python在金融数据分析中扮演关键角色,用于预测市场趋势和风险管理。本文通过案例展示了使用Python库(如pandas、numpy、matplotlib等)进行数据获取、清洗、分析和建立预测模型,例如计算苹果公司(AAPL)股票的简单移动平均线,以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】

3475 3
|
SQL 分布式计算 运维
|

MaxCompute操作报错合集之遇到报错:ODPS-0110061: Failed to run ddltask - Modify DDL meta encounter exception该如何解决

MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

535 0
来自: 大数据计算 MaxCompute  版块
|
运维 监控 搜索推荐
|

客户案例 | 识货基于向量检索服务 Milvus 版搭建电商领域的向量数据检索平台

阿里云的Milvus服务以其性能稳定和功能多样化的向量检索能力,为识货团队在电商领域的向量检索场景中搭建业务系统提供了强有力的支持。该服务的分布式扩展能力不仅可靠,而且能够适应日益增长的数据规模。

1172 1
|
SQL 消息中间件 关系型数据库
|

ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析

`ReplacingMergeTree`是ClickHouse的一种表引擎,用于数据去重。与`MergeTree`不同,它在合并分区时删除重复行,但不保证无重复。去重基于`ORDER BY`列,在ver列未指定时保留最新行,否则保留ver值最大者。数据处理策略包括延迟合并导致的不确定性及按分区去重。`CREATE TABLE`语法中,`ReplacingMergeTree`需要指定可选的`ver`列。相关系列文章提供了更深入的解析。

1385 0
|
SQL 存储 JSON
|

Hive 解析 JSON 字符串数据的实现方式

Hive 提供 `get_json_object` 函数解析 JSON 字符串,如 `{"database":"maxwell"}`。`path` 参数使用 `$`、`.`、`[]` 和 `*` 来提取数据。示例中展示了如何解析复杂 JSON 并存储到表中。此外,Hive 3.0.0及以上版本内置 `JsonSerDe` 支持直接处理 JSON 文件,无需手动解析。创建表时指定 `JsonSerDe` 序列化器,并在 HDFS 上存放 JSON 文件,可以直接查询字段内容,方便快捷。

1867 3
|
机器学习/深度学习 算法 测试技术
|

Python中实现多层感知机(MLP)的深度学习模型

Python中实现多层感知机(MLP)的深度学习模型

1231 0
|
数据采集 存储 安全
|

一篇文章教你正确解锁 代理ip 的使用方式,包含两个实战案例

本文介绍了代理IP在爬虫和网络测试中的重要性,详细讲解了代理IP的基础知识,包括定义、分类和获取方式。文章强调了正确使用代理IP的方法,如选择合适类型的代理、配置代理、轮换验证以及遵循法规。通过两个实战案例,展示了如何在爬虫中使用代理IP规避访问限制和在性能测试中模拟不同地域用户。代理IP的恰当运用能提升效率、保障安全,适应不断发展的网络环境。

2245 2
|
存储 IDE 测试技术
|

探索Python中的变量宇宙:详尽解读与实战避坑指南

【4月更文挑战第4天】本文深入探讨了Python变量,包括其声明与赋值、数据类型,以及常见错误和应对策略。通过实例展示了变量在存储用户输入、计算、控制流程和函数参数等方面的应用。强调了理解变量作用域、避免类型不匹配和未初始化的错误,同时提出了最佳实践,如明确命名、避免冗余、适时复用和使用类型提示,以提升编程效率和代码质量。

523 2
|
机器学习/深度学习 人工智能 搜索推荐
|

Python进行AI声音克隆的端到端指南

人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。

1131 0
|
机器学习/深度学习 数据采集 人工智能
|

【AAAI 2024】解锁深度表格学习(Deep Tabular Learning)的关键:算术特征交互

近日,阿里云人工智能平台PAI与浙江大学吴健、应豪超老师团队合作论文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在国际人工智能顶会AAAI-2024上发表。本项工作聚焦于深度表格学习中的一个核心问题:在处理结构化表格数据(tabular data)时,深度模型是否拥有有效的归纳偏差(inductive bias)。

1243 2
来自: 人工智能平台PAI  版块

浅谈RISC-V指令集的基本指令格式和立即数操作

在以前的文章中,我分享了RISC-V在设计的初衷,除了可以被通用软件开发使用之外,还有一个目的就是,可以支持更多定制化的设计。也就是说,用户可以在基本指令集上面,进行一个或者多个的指令集扩展操作,但是有一个条件,不能再重新定义基本指令集。也就是说,任何一款基于RISC-V指令集的处理器,都要能够支撑整数基本指令集。可以看出基本指令集的重要性。

2084 0
|
人工智能 算法 Java
|

ACM模式之输入输出(Java/Python例题)

ACM模式之输入输出(Java/Python例题)

1247 0
|
数据采集 运维 数据管理
|

数据管理能力成熟度模型

为促进大数据产业持续深入发展,提高政府、企事业单位大数据资产管理意识,借鉴国内外成熟度相关理论思想,结合数据生命周期管理各个阶段的特征,对数据管理能力进行了分析、总结,提炼出组织数据管理的八大过程域,并对每项能力进行了二级过程域和发展等级的划分以及相关功能介绍和评定标准的制定。

1903 1
|
机器学习/深度学习 前端开发 测试技术
|

智能语音技术的相关技术(二)

智能语音技术的相关技术(二)

988 0
|
Linux 网络安全 文件存储
|

本地部署Jellyfin影音服务器 - 公网远程影音库

随着移动智能设备的普及,各种各样的使用需求也被开发出来,从最早的移动听音乐、看图片(MP3时代),到之后的移动视频需求(MP4时代)到现在的移动流媒体需求(智能手机看视频)。但当我们习惯这些需求后,忽然发现自己不知不觉间成了待割的韭菜(3台设备就要加钱)。作为一颗倔强的韭菜,自然不会甘愿被割,因此打算自建一个私人影音媒体平台。现在,笔者就向大家展示,使用cpolar内网穿透+ Jellyfin,自建私人影音平台的全过程。

1103 0
|
人工智能 搜索推荐 测试技术
|

如何使用聊天GPT自定义说明

探索 ChatGPT 自定义说明功能。了解如何微调响应,探索教师、企业家和内容创建者的用例。

779 0
|
机器学习/深度学习 算法
|

区间预测 | MATLAB实现QRLSTM长短期记忆神经网络分位数回归时间序列区间预测

区间预测 | MATLAB实现QRLSTM长短期记忆神经网络分位数回归时间序列区间预测

816 1
|
Web App开发 移动开发 iOS开发
|

如何在浏览器中启用 WebGL 以使用 HTML5 3D 查看器

如何在浏览器中启用 WebGL 以使用 HTML5 3D 查看器

714 0
|
机器学习/深度学习 存储 人工智能
|

阿里云机器学习PAI全新推出特征平台 (Feature Store),助力AI建模场景特征数据高效利用

机器学习平台 PAI 推出特征平台(PAI-FeatureStore),在所有需要特征的AI建模场景,用户可通过 Feature Store 轻松地共享和重用特征数据,减少资源和时间成本、提升工作效率。

2147 3
来自: 人工智能平台PAI  版块
|
数据采集 运维 供应链
|

数据的分类和分级

数据的分类和分级

1657 0
|
自然语言处理 算法 Python
|

【NLP Tool -- JieBa】Jieba实现TF-IDF和TextRank文本关键字提取(附代码)

简单快速实现文本关键词提取

1299 0
|
存储 分布式计算 数据挖掘
|

【数据湖仓架构】数据湖和仓库:Databricks 和 Snowflake

【数据湖仓架构】数据湖和仓库:Databricks 和 Snowflake

1778 1
|
机器学习/深度学习 自然语言处理 算法
|

跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。

3352 0
来自: 人工智能平台PAI  版块
|
运维 分布式计算 DataWorks
|

阿里云大数据助力知衣科技打造AI服装行业核心竞争力

杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。

3270 0
|
人工智能 分布式计算 Cloud Native
|

《阿里云云原生一体化数仓新能力解读》电子书重磅来袭!六大能力,助力企业构建全托管的现代化数仓!

离线实时一体、分析服务一体、湖仓一体、数据安全、数据建模、数据治理,六大热门主题,六位大数据专家,带你了解当前炙手可热的云数仓产品最新演进趋势。

2261 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL JSON
|

阿里云云原生一体化数仓 — 分析服务一体化新能力解读

本文主要介绍如何通过Hologres在分析和服务场景下的新功能,包括资源隔离,数据湖(Delta、Hudi)的支持、JSON优化支持等。

1409 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 DataWorks Cloud Native
|

阿里云云原生一体化数仓入选 2022数博会“十佳大数据案例”

2022年5月26日,中国国际大数据产业博览会(以下简称“数博会”)在贵阳召开,数博会“十佳大数据案例”揭晓,阿里云云原生一体化数仓入选。阿里云云原生一体化数仓可以解决企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理,通过精简的架构,支撑分析决策、异构大数据平台之上的全域数据分析需求。

1622 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 关系型数据库
|

Apache Flink CDC 批流融合技术原理分析

以 Flink SQL 案例来介绍 Flink CDC 2.0 的使用,并解读 CDC 中的核心设计。

2537 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439956
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务