暂时未有相关云产品技术能力~
暂无个人介绍
只需三分钟,让大家都能体验到AI写文章的乐趣!
用了这个技术,我让模型训练和推理快了好几倍
如何优雅的抢占别人的显卡?
这道小学六年级的数学题,恕我直言没几个人会做
【白话模型量化系列一】矩阵乘法量化
这篇文章是我用AI生成出来的
最全攻略:利用LightSeq加速你的深度学习模型
cuBLAS矩阵乘法性能分析(附代码示例)
什么是机器翻译?(科普向)
养成女友?我训练出了一个“杨超越”聊天机器人
从零开始训练一个人工智障女友
网传字节跳动实习生删除所有轻量级模型,还有救吗?
只用几行代码,我让模型『训练』加速了3倍以上!
只用两行代码,我让Transformer推理加速了50倍
三分钟教你如何PyTorch自定义反向传播
详解PyTorch编译并调用自定义CUDA算子的三种方式
PyTorch自定义CUDA算子教程与运行时间分析
推荐几个不错的CUDA入门教程(非广告)
Python常用画图代码(折线图、柱状图、饼图)
如何自动搜出更好、更小、更快的NLP模型?
【NLP 算法岗】提前批暑期实习面(试)经(历)
【每日算法Day 102】美团 AI 平台算法工程师面试编程题
【每日算法Day 101】字节跳动 AI Lab 精选面试编程题
【每日算法Day 100】字节跳动 AI Lab 面试编程题(三道)
【每日算法Day 90】5种方法:求解数组中出现次数超过一半的那个数
【每日算法Day 66】经典面试题:不用四则运算如何做加法?
论文赏析【EMNLP19】多粒度自注意力机制(MG-SA)
每日算法系列【LeetCode 124】二叉树中的最大路径和
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法
交叉熵(CrossEntropy)是常见的损失函数,本文详细推导一下它的梯度,面试大厂或者工程实践中都可能会用到。
矩阵乘法量化
利用LightSeq加速你的深度学习模型
今天再给大家讲解一下如何直导出mac版本微信的聊天记录,当然如果你没有mac,那可以直接关闭这篇文章了。
矩阵乘法是神经网络中最基础、最重要的一个运算。在用CUDA实现矩阵乘法时,不需要我们手动写,cuBLAS库提供了现成的矩阵乘法算子,例如cublasGemmEx和cublasLtMatmul。其中后者是轻量级版本,API调用更灵活。例如对于整数乘法,cublasLtMatmul支持int8的输入输出,而cublasGemmEx只支持int8输入,int32输出
如何花式计算20的阶乘?
我写了14篇文章,总结了《具体数学》常用知识点
在上一期教程中,我演示了如何从零开始训练一个比较智障的聊天机器人。 从零开始训练一个人工智障女友 但是当时数据量太少,模型简单,完全没法用,只能回复训练集中出现过的句子。 而现在,完全体的聊天机器人终于诞生了,我把它命名为“杨超越”。这次可以随你提问什么了,她都能对答如流!
很多人工智能小白可能不知道那些高大上的语音助理、机器翻译或者聊天机器人都是怎么被创造出来的,也不知道一个深度学习模型是怎么从零开始搭建并运行起来的。 今天我就简单教大家如何从零开始搭建一个Transformer模型,并在自己的数据上训练起来。这个教程非常基础,所以训练出来的模型也很傻瓜,适合零基础小白长知识用。
相信很多人都知道Hugging Face,也都用过它的Transformers预训练语言模型,但你们有没有觉得它训练的有点太慢了呢? 这时候,字节第二快的男人要站出来了(第一快是我mentor),手把手教你怎么让训练时间缩短一半。
「任意」PyTorch模型中,都可以用上面的参数连续化技术大大加快训练速度。
只用几行代码,我让模型『训练』加速了3倍以上!
只用两行代码,我让Transformer推理加速了50倍
熬了几个通宵,我写了份CUDA新手入门代码
三分钟教你如何PyTorch自定义反向传播
在上一篇教程中,我们实现了一个自定义的CUDA算子add2,用来实现两个Tensor的相加。然后用PyTorch调用这个算子,分析对比了一下和PyTorch原生加法的速度差异,并且详细解释了线程同步给统计时间带来的影响。
最近因为工作需要,学习了一波CUDA。这里简单记录一下PyTorch自定义CUDA算子的方法,写了一个非常简单的example,再介绍一下正确的PyTorch中CUDA运行时间分析方法。
最近因为工作需要,学习了一波CUDA。这里简单记录一下PyTorch自定义CUDA算子的方法,写了一个非常简单的example,再介绍一下正确的PyTorch中CUDA运行时间分析方法。
教你如何用代码自动群发邮件(邮件轰炸机)