|
机器学习/深度学习 PyTorch 算法框架/工具
|

数据平衡与采样:使用 DataLoader 解决类别不平衡问题

【8月更文第29天】在机器学习项目中,类别不平衡问题非常常见,特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时,模型可能会偏向于预测样本数较多的类别,导致少数类别的预测性能较差。为了解决这个问题,可以采用不同的策略来平衡数据集,包括过采样(oversampling)、欠采样(undersampling)以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题,并给出具体的代码示例。

2408 2
|
XML 存储 API
|

RAG效果优化:高质量文档解析详解

本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。

15924 15
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

NLP基础知识

自然语言处理(NLP)是计算机科学的交叉领域,涉及语言学、计算机科学和人工智能,用于让计算机理解、生成和处理人类语言。核心任务包括文本预处理、语言模型、文本分类、信息提取和机器翻译。常用工具有NLTK、spaCy和Hugging Face Transformers。深度学习,尤其是Transformer模型,极大地推动了NLP的进步。应用场景广泛,如搜索引擎、智能助手和医疗分析。未来趋势将聚焦多模态学习、跨语言理解和情绪识别,同时追求模型的可解释性和公平性。

356 1
|
人工智能 并行计算 PyTorch
|

Stable Diffusion 本地部署教程:详细步骤与常见问题解析

【4月更文挑战第12天】本教程详细介绍了如何在本地部署Stable Diffusion模型,包括安装Python 3.8+、CUDA 11.3+、cuDNN、PyTorch和torchvision,克隆仓库,下载预训练模型。配置运行参数后,通过运行`scripts/run_diffusion.py`生成图像。常见问题包括CUDA/CuDNN版本不匹配、显存不足、API密钥问题、模型加载失败和生成质量不佳,可按教程提供的解决办法处理。进阶操作包括使用自定义提示词和批量生成图像。完成这些步骤后,即可开始Stable Diffusion的AI艺术创作。

2103 2
|
11小时前
|
分布式计算 安全 大数据
|

别等被黑客敲门才醒悟:大数据如何帮你防住网络攻击?

别等被黑客敲门才醒悟:大数据如何帮你防住网络攻击?

43 23
|
6月前
|
存储 分布式计算 负载均衡
|

数据分布式存储:在海量数据面前,我们如何站稳脚跟?

数据分布式存储:在海量数据面前,我们如何站稳脚跟?

908 1
|
11月前
|
Java 索引
|

Java“ArrayIndexOutOfBoundsException”解决

Java中的“ArrayIndexOutOfBoundsException”异常通常发生在尝试访问数组的无效索引时。解决方法包括:检查数组边界,确保索引值在有效范围内;使用循环时注意终止条件;对用户输入进行验证。通过这些措施可以有效避免该异常。

2044 2
|
机器学习/深度学习 边缘计算 PyTorch
|

PyTorch 与边缘计算:将深度学习模型部署到嵌入式设备

【8月更文第29天】随着物联网技术的发展,越来越多的数据处理任务开始在边缘设备上执行,以减少网络延迟、降低带宽成本并提高隐私保护水平。PyTorch 是一个广泛使用的深度学习框架,它不仅支持高效的模型训练,还提供了多种工具帮助开发者将模型部署到边缘设备。本文将探讨如何将PyTorch模型高效地部署到嵌入式设备上,并通过一个具体的示例来展示整个流程。

2786 1
|
供应链 Python
|

供需匹配(Demand-Supply Matching)的详细解释与Python代码示例

供需匹配(Demand-Supply Matching)的详细解释与Python代码示例

2076 2
|
算法
|

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

5775 0
|
存储 SQL 缓存
|

Hologres揭秘:深度解析高效率分布式查询引擎

从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列,从高性能存储引擎到高效率查询引擎,高吞吐写入到高QPS查询等,全方位解读Hologers,请大家持续关注!

12158 4
来自: 实时数仓 Hologres  版块
|
存储 JSON Oracle
|

【最佳实践】esrally:Elasticsearch 官方压测工具及运用详解

由于 Elasticsearch(后文简称 es) 的简单易用及其在大数据处理方面的良好性能,越来越多的公司选用 es 作为自己的业务解决方案。然而在引入新的解决方案前,不免要做一番调研和测试,本文便是介绍官方的一个 es 压测工具 esrally,希望能为大家带来帮助。

19046 0
|
4天前
|
人工智能 运维 搜索推荐
|

元宇宙进课堂?聊聊它如何改造教育系统

元宇宙进课堂?聊聊它如何改造教育系统

42 9
|
6天前
|
Web App开发 前端开发 vr&ar
|

虚拟办公室,不再只是噱头:一步步教你构建沉浸式工作空间

虚拟办公室,不再只是噱头:一步步教你构建沉浸式工作空间

49 7
|
2月前
|
传感器 算法 数据挖掘
|

Python时间序列平滑技术完全指南:6种主流方法原理与实战应用

时间序列数据分析中,噪声干扰普遍存在,影响趋势提取。本文系统解析六种常用平滑技术——移动平均、EMA、Savitzky-Golay滤波器、LOESS回归、高斯滤波与卡尔曼滤波,从原理、参数配置、适用场景及优缺点多角度对比,并引入RPR指标量化平滑效果,助力方法选择与优化。

382 0
|
10月前
|
传感器 存储 监控
|

树莓派的应用场景有哪些

树莓派是一种小型、低成本的计算机,广泛应用于教育、家庭自动化、媒体中心、游戏、机器人、物联网项目等领域,支持多种操作系统和编程语言。

1759 8
|
22天前
|
人工智能 监控 算法
|

构建时序感知的智能RAG系统:让AI自动处理动态数据并实时更新知识库

本文系统构建了一个基于时序管理的智能体架构,旨在应对动态知识库(如财务报告、技术文档)在问答任务中的演进与不确定性。通过六层设计(语义分块、原子事实提取、实体解析、时序失效处理、知识图构建、优化知识库),实现了从原始文档到结构化、时间感知知识库的转化。该架构支持RAG和多智能体系统,提升了推理逻辑性与准确性,并通过LangGraph实现自动化工作流,强化了对持续更新信息的处理能力。

137 4
|
5月前
|
供应链 测试技术
|

产品工作流程 - AxureMost

本文介绍了产品工作流程中的IPD(集成产品开发)流程,强调产品经理对整个产品过程的管控。IPD流程包含六个主要阶段:概念、计划、开发、验证、发布和生命周期管理,每个阶段都有明确目标、活动及决策评审点(DRP),以确保项目按目标推进并适应市场变化,提升产品开发成功率与市场响应速度。

268 0
|
7月前
|
分布式计算 并行计算 调度
|

基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS

在HPC场景中,集群任务调度系统是资源管理和作业调度的核心工具。LSF、SGE、Slurm和PBS是主流调度系统。LSF适合大规模企业级集群,提供高可靠性和混合云支持;SGE为经典开源系统,适用于中小规模集群;Slurm成为HPC领域事实标准,支持多架构和容器化;PBS兼具商业和开源版本,擅长拓扑感知调度。选型建议:超大规模科研用Slurm,企业生产环境用LSF/PBS Pro,混合云需求选LSF/PBS Pro,传统小型集群用SGE/Slurm。当前趋势显示Slurm在TOP500系统中占比超60%,而商业系统在金融、制造等领域保持优势。

1207 32
|
9月前
|
机器学习/深度学习 人工智能 PyTorch
|

使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比

本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。

552 22
|
9月前
|
数据处理 数据安全/隐私保护 流计算
|

Flink 三种时间窗口、窗口处理函数使用及案例

Flink 是处理无界数据流的强大工具,提供了丰富的窗口机制。本文介绍了三种时间窗口(滚动窗口、滑动窗口和会话窗口)及其使用方法,包括时间窗口的概念、窗口处理函数的使用和实际案例。通过这些机制,可以灵活地对数据流进行分析和计算,满足不同的业务需求。

913 27
来自: 实时计算 Flink  版块
|
10月前
|
Java Unix Linux
|

Java “SocketException” 错误怎么处理

Java 中的 "SocketException" 错误通常发生在网络通信过程中,如连接失败、断开连接或数据传输异常。处理方法包括检查网络配置、确保服务器正常运行、使用超时设置和重试机制,以及捕获并处理异常。

1838 6
|
存储 自然语言处理 NoSQL
|

Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读

引入知识图谱技术后,传统RAG链路到Graph RAG链路会有什么样的变化,如何兼容RAG中的向量数据库(Vector Database)和图数据库(Graph Database)基座,以及蚂蚁的Graph RAG开源技术方案和未来优化方向。

6131 2
|
2月前
|
分布式计算 Java 流计算
|

Fluss on 鲲鹏 openEuler 大数据实战

本文介绍了基于华为鲲鹏ARM架构服务器与openEuler操作系统,构建包含HDFS、ZooKeeper、Flink、Fluss及Paimon的实时大数据环境的完整实战过程。涵盖了软硬件配置、组件部署、集群规划、环境变量设置、安全认证及启停脚本编写等内容,适用于企业级实时数据平台搭建与运维场景。

466 0
来自: 实时计算 Flink  版块
|
2月前
|
存储 消息中间件 OLAP
|

淘天AB实验分析平台Fluss落地实践:更适合实时OLAP的消息队列

淘天集团数据开发团队基于Fluss构建新一代实时数仓,解决数据消费冗余、探查困难及大State运维难题。Fluss融合列存与实时更新能力,支持列裁剪、KV点查、Delta Join及湖流一体,显著降低IO与计算资源消耗,提升作业稳定性与数据探查效率。已在淘天AB实验平台落地,覆盖搜索、推荐等核心业务,通过618大促验证,实现千万级流量、秒级延迟,资源消耗降低30%,State缩减超100TB。未来将持续深化湖仓架构,拓展AI场景应用。

746 4
来自: 实时计算 Flink  版块
|
3月前
|
SQL 存储 消息中间件
|

Trino权威指南

Trino(原Presto SQL)是一款开源分布式SQL查询引擎,专为大数据联邦查询设计。它支持秒级查询PB级数据,可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用,适合交互式分析与BI场景。Trino采用无共享架构,通过列式内存格式和动态代码生成优化性能,并提供丰富的连接器实现计算存储分离,最大化下推优化以提升效率。

605 3
|
4月前
|
Web App开发 数据采集 JavaScript
|

动态网页爬取:Python如何获取JS加载的数据?

动态网页爬取:Python如何获取JS加载的数据?

786 58
|
6月前
|
机器学习/深度学习 数据处理
|

大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究

本文分析了大规模Transformer架构(如LLama)中归一化技术的关键作用,重点探讨了LayerNorm被RMSNorm替代的原因。归一化通过调整数据量纲保持分布形态不变,提升计算稳定性和收敛速度。LayerNorm通过均值和方差归一化确保数值稳定,适用于序列模型;而RMSNorm仅使用均方根归一化,省略均值计算,降低计算成本并缓解梯度消失问题。RMSNorm在深层网络中表现出更高的训练稳定性和效率,为复杂模型性能提升做出重要贡献。

1128 14
|
6月前
|
人工智能 运维 Kubernetes
|

2025 超详细!Lens Kubernetes IDE 多平台下载安装与集群管理教程

Lens 是一款企业级 Kubernetes 可视化操作平台,2025版实现了三大技术革新:AI智能运维(异常检测准确率98.7%)、多云联邦管理(支持50+集群)和实时3D拓扑展示。本文介绍其安装环境、配置流程、核心功能及高阶技巧,帮助用户快速上手并解决常见问题。适用于 Windows、macOS 和 Ubuntu 系统,需满足最低配置要求并前置依赖组件如 kubectl 和 Helm。通过 Global Cluster Hub 实现多集群管理,AI辅助故障诊断提升运维效率,自定义监控看板和插件生态扩展提供更多功能。

817 2
|
11月前
|
机器学习/深度学习 弹性计算 人工智能
|

大模型进阶微调篇(三):微调GPT2大模型实战

本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。

1973 6
来自: 人工智能平台PAI  版块
|
SQL 运维 搜索推荐
|

《揭秘,阿里开源自研搜索引擎Havenask的在线检索服务》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的在线检索服务,它具备高可用、高时效、低成本的优势,帮助企业和开发者量身定做适合业务发展的智能搜索服务。

84524 138
来自: 智能搜索推荐  版块
|
SQL 分布式计算 Oracle
|

数据同步工具DataX的安装

数据同步工具DataX的安装

2350 0
|
消息中间件 存储 供应链
|

数据仓库介绍与实时数仓案例

1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

43329 13
来自: 实时计算 Flink  版块
|
6天前
|
机器学习/深度学习 人工智能 JSON
|

微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。

55 8
|
16天前
|
安全 Java 数据库连接
|

2025 年最新 Java 学习路线图含实操指南助你高效入门 Java 编程掌握核心技能

2025年最新Java学习路线图,涵盖基础环境搭建、核心特性(如密封类、虚拟线程)、模块化开发、响应式编程、主流框架(Spring Boot 3、Spring Security 6)、数据库操作(JPA + Hibernate 6)及微服务实战,助你掌握企业级开发技能。

154 3
|
10月前
|
自然语言处理 算法 搜索推荐
|

NLTK模块使用详解

NLTK(Natural Language Toolkit)是基于Python的自然语言处理工具集,提供了丰富的功能和语料库。本文详细介绍了NLTK的安装、基本功能、语料库加载、词频统计、停用词去除、分词分句、词干提取、词形还原、词性标注以及WordNet的使用方法。通过示例代码,帮助读者快速掌握NLTK的核心功能。

1830 1
|
SQL 缓存 分布式计算
|

手把手教你解决 Hive 的数据倾斜

数据倾斜是 Hive 中影响任务执行效率的现象,表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均,导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化,如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数,可以有效缓解数据倾斜问题。

1615 2
|
3天前
|
存储 人工智能 监控
|

LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作

如今的量化交易已远超传统技术指标,迈向多智能体协作的新时代。本文介绍了一个基于 **LangGraph** 构建的多智能体交易系统,模拟真实投资机构的运作流程:数据分析师收集市场情报,研究员展开多空辩论,交易员制定策略,风险团队多角度评估,最终由投资组合经理做出决策。系统具备记忆学习能力,通过每次交易积累经验,持续优化决策质量。

38 8
|
3天前
|
数据采集 监控 Shell
|

无需Python:Shell脚本如何成为你的自动化爬虫引擎?

Shell脚本利用curl/wget发起请求,结合文本处理工具构建轻量级爬虫,支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性,适用于日志监控、价格追踪等场景。相比Python,具备启动快、资源占用低的优势,适合嵌入式或老旧服务器环境,复杂任务可结合Python实现混合编程。

38 0
|
12天前
|
存储 测试技术 开发者
|

NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速

本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。

106 15
|
1月前
|
SQL 人工智能 JSON
|

Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理

简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。

405 43
来自: 实时计算 Flink  版块
|
4月前
|
机器学习/深度学习 PyTorch API
|

PyTorch量化感知训练技术:模型压缩与高精度边缘部署实践

本文深入探讨神经网络模型量化技术,重点讲解训练后量化(PTQ)与量化感知训练(QAT)两种主流方法。PTQ通过校准数据集确定量化参数,快速实现模型压缩,但精度损失较大;QAT在训练中引入伪量化操作,使模型适应低精度环境,显著提升量化后性能。文章结合PyTorch实现细节,介绍Eager模式、FX图模式及PyTorch 2导出量化等工具,并分享大语言模型Int4/Int8混合精度实践。最后总结量化最佳策略,包括逐通道量化、混合精度设置及目标硬件适配,助力高效部署深度学习模型。

562 21
|
5月前
|
机器学习/深度学习 数据采集 API
|

Python自动化解决滑块验证码的最佳实践

Python自动化解决滑块验证码的最佳实践

691 2
|
6月前
|
数据采集 人工智能 分布式计算
|

MCP+Hologres+LLM搭建数据分析Agent

本文探讨了LLM大模型在数据分析领域的挑战,并介绍了Hologres结合MCP协议和LLM搭建数据分析Agent的解决方案。传统LLM存在实时数据接入能力不足、上下文记忆短等问题,而Hologres通过高性能数据分析能力和湖仓一体支持,解决了这些痛点。MCP协议标准化了LLM与外部系统的连接,提升集成效率。文中详细描述了如何配置Hologres MCP Server与Claude Desktop集成,并通过TPC-H样例数据展示了分析流程和效果。最后总结指出,该方案显著提高了复杂分析任务的实时性和准确性,为智能决策提供支持。

1059 3
来自: 实时数仓 Hologres  版块
|
6月前
|
存储 人工智能 算法
|

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

阿里云向量检索服务Milvus 2.5版本在全文检索、关键词匹配以及混合检索(Hybrid Search)方面实现了显著的增强,在多模态检索、RAG等多场景中检索结果能够兼顾召回率与精确性。本文将详细介绍如何利用 Milvus 2.5 版本实现这些功能,并阐述其在RAG 应用的 Retrieve 阶段的最佳实践。

1321 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

很火的DeepSeek到底是什么

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年。因推出开源 AI 模型 DeepSeek-R1 而引起了广泛关注。与ChatGPT相比,大幅降低了推理模型的成本。

3157 36
|
8月前
|
关系型数据库 OLAP OLTP
|

深入剖析 OALP 与 OLTP:概念、区别、技术、场景

本文深入剖析了OLTP(在线事务处理)与OLAP(在线分析处理)的概念、区别、技术及应用场景。OLTP专注于实时业务操作,确保数据一致性和高效性,适用于金融、电商等行业;OLAP则侧重于历史数据分析,支持复杂查询和多维分析,助力企业决策。两者在数据特点、系统设计、用户类型及数据库设计上存在显著差异。合理结合OLTP和OLAP,可提升企业的运营效率和决策水平。

1168 15
|
11月前
|
机器学习/深度学习 计算机视觉
|

一文详解残差网络

残差网络(ResNet)源于2016年的论文《Deep Residual Learning for Image Recognition》,旨在解决深层网络中的梯度消失和爆炸问题。通过引入残差块,即在网络中添加跳跃连接,使得信息可以直接跨过多层传递,从而有效解决了网络加深导致的训练困难。ResNet不仅显著提高了模型性能,还促进了深度学习领域的发展。

1510 3
|
11月前
|
人工智能 算法 物联网
|

企业级RAG全链路优化关键技术

本文深入解析了企业级RAG全链路的关键技术、效果优化、性能优化及应用实践。

1866 2
|
SQL 存储 Java
|

Hive 特殊的数据类型 Array、Map、Struct

在Hive中,`Array`、`Map`和`Struct`是三种特殊的数据类型。`Array`用于存储相同类型的列表,如`select array(1, "1", 2, 3, 4, 5)`会产生一个整数数组。`Map`是键值对集合,键值类型需一致,如`select map(1, 2, 3, "4")`会产生一个整数到整数的映射。`Struct`表示结构体,有固定数量和类型的字段,如`select struct(1, 2, 3, 4)`创建一个无名结构体。这些类型支持嵌套使用,允许更复杂的结构数据存储。例如,可以创建一个包含用户结构体的数组来存储多用户信息

1809 0