机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71351内容
数字人平台技术、场景应用优势
数字人企业正引领技术革命,融合AI、CG与NLP,打造虚实交互的“数字生命体”,从效率提升到体验升级,重塑人机共生未来。
MoE架构:大模型的规模扩展革命
MoE(混合专家)架构通过稀疏激活多个专业化子网络,实现高效计算与大规模模型的结合,提升训练推理效率及模型可扩展性,成为大模型发展的重要范式。
|
7天前
|
面向 AI 工作负载的 Java:从数值计算到模型服务化
本文探讨Java在AI工作负载中的应用,涵盖数值计算、深度学习、模型服务化及性能优化,展示如何利用DeepLearning4J、ND4J与Spring Boot构建高效、可扩展的AI系统,推动Java在人工智能领域的落地实践。
从“识图”到“购得”:图片搜索商品如何重构消费与供应链逻辑?
图片搜索正重塑电商:从“看到”到“买到”,只需一张图。它以AI解析视觉特征,精准匹配商品,打通C端购物与B端供应链,让找货、比价、溯源高效直达,成为连接视觉信息与交易的核心纽带。
Mcore Bridge:迈向Megatron训练"零门槛"时代
魔搭社区推出Mcore-Bridge与Megatron-SWIFT,显著降低大模型训练门槛。支持safetensors格式、一键启动、无需权重转换,兼容MoE等架构,实现高性能与易用性统一,让Megatron训练开箱即用。
从文字到向量:Transformer的语言数字化之旅
向量化是将文字转化为数学向量的过程,使计算机能理解语义。通过分词、构建词汇表、词嵌入与位置编码,文本被映射到高维空间,实现语义相似度计算、搜索、分类等智能处理,是NLP的核心基础。
Transformer参数规模深度解析:从模型聪明说到实际影响
Transformer参数规模显著影响模型能力,参数越多,知识容量与模式识别能力越强,但存在边际效应和过拟合风险。现代大模型通过混合专家、量化压缩等技术提升参数效率,未来趋势是优化参数使用而非盲目扩大规模,实现性能与效率的平衡。(238字)
GPT与BERT深度解析:Transformer的双子星架构
GPT基于Transformer解码器,擅长文本生成;BERT基于编码器,专注文本理解。二者在架构、注意力机制和训练目标上差异显著,分别适用于生成与理解任务,体现了AI智能的多元化发展。
Transformer中的残差连接与层归一化
残差连接与层归一化是深度学习的稳定基石:前者通过“信息高速公路”缓解梯度消失,后者以“训练稳定器”解决分布偏移。二者协同,使深层网络训练更高效,成为Transformer及大模型成功的关键。
Transformer中的线性与非线性变换:智能的数学交响曲
线性变换满足叠加性与齐次性,用于信息传递和特征组合;非线性变换打破线性限制,引入复杂模式学习。二者在Transformer中交替协作,如乐谱与演绎共奏智能交响曲,实现强大表达与泛化能力。
免费试用