|
10月前
|
存储 物联网 PyTorch
|

基于PyTorch的大语言模型微调指南:Torchtune完整教程与代码示例

**Torchtune**是由PyTorch团队开发的一个专门用于LLM微调的库。它旨在简化LLM的微调流程,提供了一系列高级API和预置的最佳实践

514 59
|
11月前
|
人工智能
|

歌词结构的艺术:写歌词的技巧和方法深度剖析,妙笔生词AI智能写歌词软件

歌词是音乐的灵魂伴侣,其结构蕴含独特艺术魅力。掌握歌词结构技巧是创作者成功的关键。开头需迅速吸引听众,主体部分通过叙事、抒情或对话形式展开,结尾则点睛收尾。创作时可借助《妙笔生词智能写歌词软件》,利用 AI 功能优化歌词,提供丰富模板和案例,助力灵感涌现,轻松掌握歌词结构艺术。

1190 7
|
11月前
|
机器学习/深度学习 传感器 数据采集
|

使用Python实现深度学习模型:智能设备故障预测与维护

【10月更文挑战第10天】 使用Python实现深度学习模型:智能设备故障预测与维护

1513 2
|
11月前
|
存储 运维 监控
|

超越传统模型:从零开始构建高效的日志分析平台——基于Elasticsearch的实战指南

【10月更文挑战第8天】随着互联网应用和微服务架构的普及,系统产生的日志数据量日益增长。有效地收集、存储、检索和分析这些日志对于监控系统健康状态、快速定位问题以及优化性能至关重要。Elasticsearch 作为一种分布式的搜索和分析引擎,以其强大的全文检索能力和实时数据分析能力成为日志处理的理想选择。

676 6
ly~
|
11月前
|
安全 生物认证 数据库
|

有哪些常见的身份验证错误和漏洞?

本文介绍了常见的网络安全问题,包括弱密码、密码重用、身份验证流程缺陷、会话管理问题和社会工程学攻击。具体涉及简单密码易被破解、多平台使用同一密码、缺乏多因素认证、身份验证绕过、会话劫持与固定、钓鱼攻击和伪装攻击等。这些问题可能导致用户信息泄露和系统安全风险。

1177 5
|
11月前
|
机器学习/深度学习 数据采集 供应链
|

Python实现深度学习模型:智能库存管理系统

【10月更文挑战第5天】 Python实现深度学习模型:智能库存管理系统

855 9
|
11月前
|
数据采集 存储 监控
|

CDGA|数据治理:让数据与业务伴生的实践路径

在数据驱动的时代,数据已成为企业宝贵资产,蕴含推动业务增长与创新的无限可能。数据治理通过科学策略挖掘、整合、保护数据,成为企业数字化转型的核心驱动力。本文阐述了数据治理的定义、重要性及其实践路径,强调跨部门协作与全员参与,确保数据质量、安全及合规性,支持企业战略目标实现。通过明确数据战略、建立管理体系、推动数据共享和持续优化,数据治理助力企业实现数据与业务的伴生共长。

1062 0
|
12月前
|
机器学习/深度学习 编解码 测试技术
|

TimeMOE: 使用稀疏模型实现更大更好的时间序列预测

TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。

1263 64
|
12月前
|
网络安全 数据安全/隐私保护
|

使用静态IP时出现“代理检测失败”的原因是什么?

随着数字化时代的加速发展,网络安全与隐私保护成为核心需求,HTTP凭借其独特优势成为新时代热门选择。本文分析了“代理检测失败,请确认代理IP的有效性”这一问题,主要原因包括:代理IP失效、配置错误、网络不稳定、类型不匹配及请求频率过高。解决建议为检查IP有效性、确保正确配置、选择合适代理类型并控制请求频率。希望这能帮助您解决问题!

550 9
来自: 大数据计算 MaxCompute  版块
|
12月前
|
机器学习/深度学习 数据采集 TensorFlow
|

使用Python实现深度学习模型:智能健康监测与预警

使用Python实现深度学习模型:智能健康监测与预警

1013 10
|
2月前
|
机器学习/深度学习 人工智能 测试技术
|

【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选

近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。

135 0
来自: 人工智能平台PAI  版块
|
2月前
|
监控 API 数据处理
|

淘宝商品详情API响应数据解析的详细说明

本内容介绍了淘宝商品详情API的调用与数据解析方法,涵盖商品基础信息、价格、库存、规格、促销、物流等关键数据的获取方式。提供了核心接口如taobao.item.get、taobao.itemprops.get、taobao.item.sku.get的功能说明及Python请求示例,适用于跨平台数据整合、价格监控、自动化运营等场景,并提示了字段兼容性、错误处理及数据更新等注意事项。

144 0
|
2月前
|
存储 机器学习/深度学习 缓存
|

Google DeepMind发布MoR架构:50%参数超越传统Transformer,推理速度提升2倍

递归混合架构(MoR)通过自适应令牌级计算机制,在降低参数与计算开销的同时超越传统Transformer性能,显著提升推理效率与内存管理,为大模型发展提供新方向。

167 0
|
2月前
|
机器学习/深度学习 搜索推荐 API
|

京东拍立淘API-以图搜图中的图像搜索算法

京东拍立淘API基于深度学习,利用CNN提取图像特征,结合余弦相似度实现商品精准匹配。支持图片搜索、类目限定与相似度筛选,日均处理千万级请求,广泛应用于移动购物与社交带货场景。

128 4
|
2月前
|
分布式计算 Java 大数据
|

springboot项目集成dolphinscheduler调度器 可拖拽spark任务管理

springboot项目集成dolphinscheduler调度器 可拖拽spark任务管理

115 2
|
2月前
|
数据采集 运维 DataWorks
|

DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案,支持千万级任务调度、多源数据集成及全链路数据开发,助力智能驾驶模型数据处理与模型训练高效落地。

236 0
|
2月前
|
人工智能 数据可视化 API
|

科学界的“外挂”?AI正加速改变发现的方式!

科学界的“外挂”?AI正加速改变发现的方式!

122 3
|
2月前
|
人工智能 自然语言处理 搜索推荐
|

AI 搜索 MCP 最佳实践

本文介绍了如何通过 MCP 协议,快速调用阿里云 OpenSearch 、ElasticSearch 等工具,帮助企业快速集成工具链、降低开发复杂度、提升业务效率。

288 29
|
3月前
|
机器学习/深度学习 存储 NoSQL
|

基于 Flink + Redis 的实时特征工程实战:电商场景动态分桶计数实现

本文介绍了基于 Flink 与 Redis 构建的电商场景下实时特征工程解决方案,重点实现动态分桶计数等复杂特征计算。通过流处理引擎 Flink 实时加工用户行为数据,结合 Redis 高性能存储,满足推荐系统毫秒级特征更新需求。技术架构涵盖状态管理、窗口计算、Redis 数据模型设计及特征服务集成,有效提升模型预测效果与系统吞吐能力。

274 2
|
3月前
|
数据采集 存储 数据可视化
|

Python爬取招标信息并生成可视化分析报告

Python爬取招标信息并生成可视化分析报告

222 0
|
3月前
|
数据采集 搜索推荐 算法
|

Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)

本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。

116 10
|
3月前
|
存储 运维 Java
|

官宣 | Fluss 0.7 发布公告:稳定性与架构升级

Fluss 0.7 版本正式发布!历经 3 个月开发,完成 250+ 次代码提交,聚焦稳定性、架构升级、性能优化与安全性。新增湖流一体弹性无状态服务、流式分区裁剪功能,大幅提升系统可靠性和查询效率。同时推出 Fluss Java Client 和 DataStream Connector,支持企业级安全认证与鉴权机制。未来将在 Apache 孵化器中继续迭代,探索多模态数据场景,欢迎开发者加入共建!

251 8
来自: 实时计算 Flink  版块
|
3月前
|
机器学习/深度学习 数据可视化 算法
|

数据分布不明确?5个方法识别数据分布,快速找到数据的真实规律

本文深入探讨了数据科学中分布识别的重要性及其实践方法。作为数据分析的基础环节,分布识别影响后续模型性能与分析可靠性。文章从直方图的可视化入手,介绍如何通过Python代码实现分布特征的初步观察,并系统化地讲解参数估计、统计检验及distfit库的应用。同时,针对离散数据、非参数方法和Bootstrap验证等专题展开讨论,强调业务逻辑与统计结果结合的重要性。最后指出,正确识别分布有助于异常检测、数据生成及预测分析等领域,为决策提供可靠依据。作者倡导在实践中平衡模型复杂度与实用性,重视对数据本质的理解。

232 3
|
3月前
|
SQL 分布式计算 编译器
|

流批一体向量化引擎Flex

本文整理自蚂蚁集团技术专家刘勇在Flink Forward Asia 2024上的分享,聚焦流批一体向量化引擎的背景、架构及未来规划。内容涵盖向量化计算的基础原理(如SIMD指令)、现有技术现状,以及蚂蚁在Flink 1.18中引入的C++开发向量化计算实践。通过Flex引擎(基于Velox构建),实现比原生执行引擎更高的吞吐量和更低的成本。文章还详细介绍了功能性优化、正确性验证、易用性和稳定性建设,并展示了线上作业性能提升的具体数据(平均提升75%,最佳达14倍)。最后展望了未来规划,包括全新数据转换层、与Paimon结合及支持更多算子和SIMD函数。

223 9
来自: 实时计算 Flink  版块
|
3月前
|

HarmonyOS实战:腾讯IM之消息删除、撤回和重发(三)

本文详细介绍了鸿蒙 IM 聊天中实现消息撤回、删除和重发功能的方法。消息撤回支持在 120 秒内召回自己发送的消息,通过 `revokeMessage` 方法实现;消息删除使用 `deleteMessage` 方法清除本地与云端记录;消息重发则先删除失败消息再重新发送,并处理用户被拉黑的异常情况。结合状态管理,可轻松实现类似微信的功能,建议点赞收藏并动手实践!

181 3
|
4月前
|
人工智能 并行计算 开发者
|

CUDA重大更新:原生Python可直接编写高性能GPU程序

NVIDIA在2025年GTC大会上宣布CUDA并行计算平台正式支持原生Python编程,消除了Python开发者进入GPU加速领域的技术壁垒。这一突破通过重新设计CUDA开发模型,引入CUDA Core、cuPyNumeric、NVMath Python等核心组件,实现了Python与GPU加速的深度集成。开发者可直接用Python语法进行高性能并行计算,显著降低门槛,扩展CUDA生态,推动人工智能、科学计算等领域创新。此更新标志着CUDA向更包容的语言生态系统转型,未来还将支持Rust、Julia等语言。

317 3
|
4月前
|
存储 人工智能 API
|

RAG-MCP:基于检索增强生成的大模型工具选择优化框架

RAG-MCP是一种通过检索增强生成技术解决大型语言模型(LLM)工具选择困境的创新框架。它针对提示词膨胀和决策效率低的问题,利用语义检索动态筛选相关工具,显著减少提示词规模并提升准确率。本文深入解析其技术原理,包括外部工具索引构建、查询时检索处理等核心步骤,以及实验评估结果。RAG-MCP不仅优化了LLM的工具使用能力,还为AI代理的发展提供了重要支持,未来可在极端规模检索、多工具工作流等方面进一步探索。

361 16
|
4月前
|
机器学习/深度学习 JSON 算法
|

京东拍立淘图片搜索 API 接入实践:从图像识别到商品匹配的技术实现

京东拍立淘图片搜索 API 是基于先进图像识别技术的购物搜索接口,支持通过上传图片、URL 或拍摄实物搜索相似商品。它利用机器学习和大数据分析,精准匹配商品特征,提供高效、便捷的搜索体验。接口覆盖京东海量商品资源,不仅支持外观、颜色等多维度比对,还结合用户行为数据实现智能推荐。请求参数包括图片 URL 或 Base64 编码,返回 JSON 格式的商品信息,如 ID、价格、链接等,助力消费者快速找到心仪商品,满足个性化需求。

291 18
|
4月前
|
PyTorch 调度 算法框架/工具
|

阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析

DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案

196 18
来自: 人工智能平台PAI  版块
|
5月前
|
数据采集 Web App开发 iOS开发
|

Python 爬虫如何伪装 Referer?从随机生成到动态匹配

Python 爬虫如何伪装 Referer?从随机生成到动态匹配

404 2
|
5月前
|
机器学习/深度学习 算法 PyTorch
|

10招立竿见影的PyTorch性能优化技巧,让模型训练速度翻倍

本文系统总结了PyTorch性能调优的关键技术,涵盖混合精度训练、PyTorch 2.0编译功能、推理模式优化、Channels-Last内存格式、图优化与变换、cuDNN基准测试、内存使用优化等多个方面。通过实证测试,文章详细分析了各技术的实现细节、优势及适用场景,如混合精度训练可显著提升计算效率和内存利用率,torch.compile()能自动优化代码生成以加速模型运行。此外,还探讨了推理模式的选择、卷积操作优化及模型构建的最佳实践。这些方法结合良好的编码习惯,有助于开发者构建高效、可扩展的深度学习应用。

313 3
|
5月前
|
机器学习/深度学习 人工智能 算法
|

AI鱼类识别技术原理及示例代码

本文详细解析了AI鱼类识别的代码示例,涵盖深度学习框架选择、数据集处理、模型构建与训练优化全流程。内容包括技术选型对比(如TensorFlow、PyTorch、YOLO系列)、数据准备流程(开源数据集与标注规范)、完整代码示例(以PyTorch版ResNet50改进模型为例)以及模型优化策略(如量化压缩、知识蒸馏)。此外,还提供了典型应用场景(如渔业资源监测系统)、模型评估指标及开源项目推荐,并针对常见问题(小样本、水下模糊、类别不平衡等)提出解决方案。

356 5
|
6月前
|
流计算 搜索推荐 人工智能
|

如何用实时数据同步打破企业数据孤岛?

3438 88
来自:实时计算 Flink 版块
|
6月前
|
数据采集 监控 API
|

淘宝淘口令 API 接口全攻略

### 淘口令 API 及相关服务简介 **一、淘口令 API(item_password)** - **功能**:将淘口令转换为商品链接或获取商品信息,支持生成自定义淘口令。 - **申请流程**:注册账号、创建应用、获取凭证、申请权限。 - **调用示例(Python)**:通过签名和请求参数调用接口,生成淘口令。 **二、第三方 API 服务** - **适用场景**:简化开发流程,支持高佣转链、淘口令解析等功能。 - **推荐接口**:万能淘口令生成、淘口令解析真实 URL。

300 4
|
7月前
|
机器学习/深度学习 搜索推荐 异构计算
|

LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记

本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分

377 0
|
7月前
|
JSON API 开发者
|

淘宝淘口令转换API接口(淘宝API系列)

淘宝淘口令转换API是用于将淘宝商品或店铺链接与淘口令进行双向转换的接口,支持HTTP POST请求。开发者可通过此API生成或解析淘口令,方便在不同平台传播淘宝内容,吸引更多潜在客户。API返回JSON格式数据,包含转换结果和状态信息。使用前需注册并申请权限,确保调用稳定可靠。示例代码展示了如何通过Python实现淘口令的生成和解析功能。

215 5
|
7月前
|
人工智能 自然语言处理 搜索推荐
|

阿里云 AI 搜索开放平台集成 DeepSeek 模型

阿里云 AI 搜索开放平台最新上线 DeepSeek -R1系列模型。

785 2
来自: 智能搜索推荐  版块
|
7月前
|
机器学习/深度学习 存储 缓存
|

LLM高效推理:KV缓存与分页注意力机制深度解析

随着大型语言模型(LLM)规模和复杂性的增长,高效推理变得至关重要。KV缓存和分页注意力是优化LLM推理的两项关键技术。KV缓存通过存储键值对减少重复计算,而分页注意力则通过将序列分割成小块来降低内存消耗,从而有效处理长序列。本文深入剖析这些技术的工作原理及其在仅解码器模型中的应用,探讨其优势与挑战,并展示其实现示例。

306 16
|
7月前
|
小程序 测试技术 数据安全/隐私保护
|

微信公众号接口测试实战指南

微信公众号接口测试是确保系统稳定性和功能完整性的重要环节。本文详细介绍了测试全流程,包括准备、工具选择(如Postman、JMeter)、用例设计与执行,以及常见问题的解决方法。通过全面测试,可以提前发现潜在问题,优化用户体验,确保公众号上线后稳定运行。内容涵盖基础接口、高级接口、微信支付和数据统计接口的测试,强调了功能验证、性能优化、安全保护及用户体验的重要性。未来,随着微信生态的发展,接口测试将面临更多挑战和机遇,如小程序融合、AI应用和国际化拓展。

573 0
|
7月前
|
存储 数据采集 数据库
|

Python爬虫实战:股票分时数据抓取与存储

Python爬虫实战:股票分时数据抓取与存储

777 5
|
7月前
|
JSON API 数据安全/隐私保护
|

虾皮(shopee)商品详情接口(虾皮 API 系列)

Shopee 商品详情接口(item_get)用于获取商品的标题、价格、描述、库存和图片等详细信息。开发者需使用 Shopee 提供的 API 密钥进行认证,通过 GET 请求访问指定 URL。请求参数包括 partner_id、shopid、itemid、timestamp 和 sign。签名生成需按字母顺序排序参数,拼接后与 API 密钥进行 HMAC-SHA256 加密。响应为 JSON 格式,包含商品详细信息及错误提示。注意妥善保管 API 密钥,并遵守请求频率限制。

448 2
|
7月前
|
设计模式 Java Go
|

【再谈设计模式】状态模式~对象行为的状态驱动者

状态模式属于行为型设计模式。它将对象的行为封装在不同的状态类中,使得对象在不同的状态下表现出不同的行为。上下文(Context):这是一个包含状态对象的类,它定义了客户感兴趣的接口,并维护一个具体状态对象的引用。上下文将操作委托给当前的状态对象来处理。抽象状态(State):这是一个抽象类或者接口,它定义了一个特定状态下的行为接口。所有具体的状态类都实现这个接口。具体状态(Concrete State):这些是实现抽象状态接口的类,每个具体状态类实现了与该状态相关的行为。

158 18
|
7月前
|
数据采集 前端开发 JavaScript
|

如何利用Java和Kotlin实现动态网页内容抓取

如何利用Java和Kotlin实现动态网页内容抓取

163 1
|
8月前
|
数据采集 存储 DataWorks
|

DataWorks Copilot:让你的数据质量覆盖率一键飞升!

在数据加工链路中,如何确保高质量的数据产出是一个一直需要重点解决的问题。阿里云DataWorks的数据质量规则模板可以帮助用户建设数据质量,在离线表上定义相关的规则。为优化手动配置规则的工作量,DataWorks的智能助手 DataWorks Copilot 推出了数据质量规则推荐功能,您可以使用这一功能,一键提升数据质量覆盖度。

567 20
|
8月前
|
机器学习/深度学习 人工智能 NoSQL
|

记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法

Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。

320 11
|
8月前
|
SQL 数据可视化 大数据
|

从数据小白到大数据达人:一步步成为数据分析专家

从数据小白到大数据达人:一步步成为数据分析专家

438 92
|
8月前
|
机器学习/深度学习 存储 数据管理
|

面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现

循环状态空间模型(Recurrent State Space Models, RSSM)由 Danijar Hafer 等人提出,是现代基于模型的强化学习(MBRL)中的关键组件。RSSM 旨在构建可靠的环境动态预测模型,使智能体能够模拟未来轨迹并进行前瞻性规划。本文介绍了如何用 PyTorch 实现 RSSM,包括环境配置、模型架构(编码器、动态模型、解码器和奖励模型)、训练系统设计(经验回放缓冲区和智能体)及训练器实现。通过具体案例展示了在 CarRacing 环境中的应用,详细说明了数据收集、训练过程和实验结果。

332 13
|
8月前
|
机器学习/深度学习 人工智能 监控
|

AI在交通管理系统中的应用

AI在交通管理系统中的应用

344 23
|
8月前
|
人工智能 调度 芯片
|

PAI训练服务:云上大模型训练新篇章

本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。

387 0
来自: 人工智能平台PAI  版块
|
9月前
|
自然语言处理 Kubernetes 异构计算
|

推理降本与提升资源效率的实践

本课程从业务角度探讨大模型推理部署及资源利用率提升。首先分析大模型与GPU发展趋势,包括模型开源、规模增长及多模态能力增强;其次介绍高效部署大模型推理业务的步骤,涵盖业务场景选择、架构优化及显存规划;接着讲解如何通过DeepCPU-LLM框架和DeepNCCL通讯库优化推理效率;最后探讨通过KuberGPU实现细粒度GPU资源管理,提升整体资源利用率,降低推理成本。

394 11