Hinton等谈深度学习十年;PyTorch落地Linux基金会的影响;机器学习界的“GitHub”|AI系统前沿动态

简介: Hinton等谈深度学习十年;PyTorch落地Linux基金会的影响;机器学习界的“GitHub”|AI系统前沿动态

1.png

  1. 重磅!PyTorch落地Linux基金会

扎克伯格亲自宣布,PyTorch基金会已新鲜成立,并归入Linux基金会旗下,管理委员会成员,包括Meta、AMD、AWS、谷歌云、微软和英伟达。Meta表示,PyTorch成功背后的驱动力,是开源社区充满活力的持续增长。成立基金会将确保社区成员以透明和公开的方式作出决定。
链接:
mp.weixin.qq.com/s/832JBlOlJ…
www.reddit.com/r/MachineLe…

  1. 深度学习十年后撞墙了?Hinton、LeCun、李飞飞不这么认为

10 年后,如今已经成为图灵奖得主的 Geoffrey Hinton、Yann LeCun,ImageNet 挑战赛的主要发起人与推动者李飞飞如何看待过去十年的 AI 技术突破?又对接下来十年的技术发展有什么判断?近日,海外媒体 VentureBeat 的一篇专访文章,让 AI 社区开始讨论起这些问题。
链接:
mp.weixin.qq.com/s/ijsyATtxD…

  1. TensorFlow 2.10上线:Windows上扩展GPU支持,TF-DF 1.0发布

新版本的亮点包括:Keras 中新的用户友好特性、Windows 中扩展 GPU 支持等等。此版本还标志着 TensorFlow 决策森林 (TF-DF) 1.0 版本的到来!
链接:
mp.weixin.qq.com/s/UYg3-lTK9…

  1. 提速还能不掉点!深度解析MegEngine 4 bits量化开源实现

量化模型被广泛使用在推理侧,量化也成为了一个重要且非常活跃的研究领域。近期,MegEngine开源了4 bits的量化的相关内容,通过MegEngine 4 bits量化实现的ResNet-50模型在 ImageNet 数据集上的精度表现与 8 bits 量化模型相差无几,并且速度是TensorRT-v7 8 bits ResNet-50模型的推理速度的1.3倍。
链接:
zhuanlan.zhihu.com/p/565121111

  1. 视频教程|OneFlow源码解析(1):分布式易用性

本视频介绍 OneFlow 如何通过发明的 SBP 及 placment 概念,简化分布式训练流程。从 SBP 的角度,可以更接近本质地理解数据并行、模型并行策略。
链接:
www.bilibili.com/video/BV1va…

  1. Groq:从头设计一个张量流式处理器架构

不同于传统的CPU和GPU架构,Groq从头设计了一个张量流处理器 (TSP) 架构, 以加速人工智能、机器学习和高性能计算中的复杂工作负载。这个架构不是开发小型可编程内核并对其进行数百次复制,而是容纳一个具有数百个功能单元的单个处理器。
链接:
mp.weixin.qq.com/s/bmhFLsdga…

  1. SIMT、SIMD和DSA(1)

选DSA还是SIMT目前也是AI芯片最重要的架构选择问题,但选哪个都是一大堆具体概念和设计的集合。我们还是需要深入进去剖析两者好到底好在哪里。
链接: zhuanlan.zhihu.com/p/562135333

  1. GPU内存(显存)的理解与基本的使用

GPU显存的组成与CPU的内存架构类似,但为了满足并行化运算GPU的显存做了特殊设计,与之相关的概念很多如host memory、device memory、L1/L2 cache、register、texture、constant、shared memory、global memory等,还会涉及一些硬件概念DRAM、On/Off chip memory,还涉及到一些操作如pin memory,zero copy等。本文试图帮助了解这些显存相关的概念,包括一些特殊存储作用是什么,性能如何以及在CUDA中怎么用。
链接:
zhuanlan.zhihu.com/p/462191421

  1. CUDA SGEMM矩阵乘法优化笔记:从入门到cublas

最近开始入门CUDA,初步了解GPU的工作原理后,选择了单精度矩阵乘法作为练习的kernel,尝试从最简单的SGEMM kernal开始,逐步优化到cublas的性能水平。
链接:
zhuanlan.zhihu.com/p/518857175

  1. 如何利用TVM快速实现超越Numpy的GEMM

本文主要讲述如何利用TVM实现超越Numpy GEMM,有人在看了《How to optimize GEMM on CPU》以后说TVM还是没有超越Numpy的性能,是不是无法做到,于是作者写这篇文章来阐述我们如何在这个基础上做到超越。
链接:
zhuanlan.zhihu.com/p/75203171;
tvm.apache.org/docs/how_to…

  1. 一个tvm(te)实现的cutlass efficient gemm

这里记录的是从tvm的tensor expression出发,参考cutlass efficient gemm的思路,一步一步优化一下GEMM的一些思考,目的是为了理解cutlass优化gemm的思路。
链接:
zhuanlan.zhihu.com/p/560729749

  1. 视频教程|TVM 学习指南介绍(前端部分)

链接:
mp.weixin.qq.com/s/rB8qYp_5W…

  1. 扩散模型爆火,这是首篇综述与Github论文分类汇总

本综述(Diffusion Models: A Comprehensive Survey of Methods and Applications)首次对现有的扩散生成模型(diffusion model)进行了全面的总结分析,从 diffusion model 算法细化分类、和其他五大生成模型的关联以及在七大领域中的应用等方面展开,最后提出了 diffusion model 的现有 limitation 和未来的发展方向。
链接:mp.weixin.qq.com/s/GcL4_zgbW…

  1. Hugging Face:成为机器学习界的“Github”

五年前,AI领域的知名研究者Andrej Karpathy发文称,传统人工编程属于“软件1.0”,“软件2.0”时代将以神经网络来编程,在这个过渡过程中,将涌现像GitHub这样的重量级平台。AI届网红公司“抱抱脸(Hugging Face)”有志于成为“软件2.0”时代的GitHub。在Hugging Face上,用户可以托管机器学习模型和数据集等,对它们进行共享、协作和评价,最后将它们投入生产应用,这种模式有点像Github上的托管和协作模式。
链接:
mp.weixin.qq.com/s/_2DVu1_zZ…

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
9月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1386 109
|
11月前
|
人工智能 数据可视化 程序员
程序员必收藏!Github 167000+ star 的自主AI agent,全自动AI助手,全面覆盖开发效率场景
AutoGPT 是基于 GPT-4 的开源自主 AI 智能代理,全面覆盖开发效率场景。支持任务自动拆解、多轮反馈、插件扩展与记忆管理,具备持续执行能力,适合自动化测试、CI/CD、Web 数据抓取等任务。GitHub 超 176K Star,是当前最热门的 AI Agent 开源项目之一,提供 CLI 与 GUI 双界面,助力开发者提升工作效率。
1531 1
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
679 0
|
11月前
|
机器学习/深度学习 人工智能 监控
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
本系列文章深入讲解了从Seq2Seq、RNN到Transformer,再到GPT模型的关键技术原理与实现细节,帮助读者全面掌握Transformer及其在NLP中的应用。同时,通过一个房价预测的完整案例,介绍了算法工程师如何利用数据训练模型并解决实际问题,涵盖需求分析、数据收集、模型训练与部署等全流程。文章适合初学者和开发者学习AI基础与实战技能。
1321 25
AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程
|
10月前
|
人工智能 自然语言处理 JavaScript
Github又一AI黑科技项目,打造全栈架构,只需一个统一框架?
Motia 是一款现代化后端框架,融合 API 接口、后台任务、事件系统与 AI Agent,支持 JavaScript、TypeScript、Python 多语言协同开发。它提供可视化 Workbench、自动观测追踪、零配置部署等功能,帮助开发者高效构建事件驱动的工作流,显著降低部署与运维成本,提升 AI 项目落地效率。
835 0
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
647 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
人工智能 数据安全/隐私保护 计算机视觉
GitHub爆款神器 | IOPaint:21.7k star 开源AI图像修复项目,竟能秒删水印、拓展画幅!
IOPaint 是一款由 Sanster 团队开发的开源图像处理工具,集成多种 SOTA AI 模型,支持图像擦除、对象替换、文本绘制和图像外扩等功能。它操作简便,一键安装,适用于 Windows、macOS、Linux 和 Apple Silicon 系统,适合摄影爱好者、电商从业者及内容创作者使用,大幅提升图像处理效率。
2217 0
|
10月前
|
机器学习/深度学习 人工智能 前端开发
完蛋,GitHub 70000+ star,我把你(AI)当朋友,你却要代替我,前端同学这下彻底蹦不住了,真的不留一点活路!!!
Screenshot-to-Code 是一款 AI 驱动的开源工具,能将截图、Figma 设计稿或录屏内容快速转化为前端代码。支持 HTML、React、Vue 等多种技术栈,适配 GPT-4 Vision、Claude Sonnet 等 AI 模型,具备视频转原型、本地部署、高精度识别等功能,助力设计快速迭代与开发提效。
455 0
|
10月前
|
数据采集 人工智能 搜索推荐
完蛋啦,爆火Github项目,用微信聊天记录打造专属AI数字分身,我都不敢相信!!
WeClone 是一个基于微信或 Telegram 聊天记录微调大语言模型的开源项目,可打造专属 AI 数字分身。支持文本、图片等多模态数据,具备语言风格迁移和语音克隆功能,实现“说话像你”的AI角色。项目提供完整训练流程,支持本地部署,保护隐私,适用于个人数字分身、纪念机器人、客服助手等场景。
2017 0
|
12月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!

热门文章

最新文章