2024年1月论文推荐

简介: 2024年1月论文推荐

Mixtral of Experts

https://arxiv.org/abs/2401.04088

Mistral开发的Mixtral 8x7B模型集成了一个Sparse mix -of- experts (SMoE)架构,在每层中有8个专门的块,通过路由为每个标记令牌选择两个专家来进行专门处理。但它总共访问470亿个参数,但是令牌在每个时间步只与两个专家交互,所以在推理期间主动使用参数为130亿个。

MoE-Mamba

https://arxiv.org/abs/2401.04081

混合专家的Mamba。MoE- mamba是一种选择性状态空间模型,它结合了混合专家(MoE)来提高效率。它以2.2倍的计算步骤实现了与Mamba模型相同的性能,同时保持了快速的推理。并且MoE-Mamba的性能优于原始Mamba和MoE的Transformer模型。

How to guess a gradient

https://arxiv.org/abs/2312.04709.
神经网络梯度显示基于网络结构和特征的可预测模式。这些模式可以通过架构约束的梯度子空间来估计,潜在地提高了复杂网络中无梯度优化的效率。这是一篇很有意思的论文

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

https://magicvideov2.github.io/

字节的MagicVideo-V2它利用文本到图像模型、运动生成、参考图像合成和帧插值来创建高分辨率、视觉上吸引人的流畅视频内容。

Learning to Prompt with Text Only Supervision for Vision-Language Models

https://muzairkhattak.github.io/ProText/

这个项目提出了一种技术来保持类似clip的视觉语言模型的泛化能力,同时使它们适应不同的任务。提示是从LLM数据中学习的,因此不需要标记图像。

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

https://arxiv.org/abs/2401.04056)

Self-Play Preference Optimization(SPO)是一种比传统RLHF更简单的对齐方法。利用博弈论,研究人员能够开发出模型自己进行训练的方式,并且提供良好的性能。

Towards the Law of Capacity Gap in Distilling Language Models

https://github.com/genezc/minima

语言模型(LM)蒸馏是一个趋势领域,蒸馏的目标将大型教师模型中的知识提炼到小型学生模型中。论文将从7B教师LM(改编为LLaMA2-7B)中提炼出3B学生LM(称为MiniMA),的流程做了详细的描述。

https://avoid.overfit.cn/post/3ca961fd21494298aac3aa6df2c3d18a

目录
相关文章
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
662 2
|
存储 安全 程序员
深入理解Qt多线程编程:QThread、QTimer与QAudioOutput的内在联系__Qt 事件循环(二)
深入理解Qt多线程编程:QThread、QTimer与QAudioOutput的内在联系__Qt 事件循环
2224 1
|
存储 Java Linux
Java“Bad Magic Number”错误解决
Java“Bad Magic Number”错误通常发生在尝试运行不兼容或损坏的类文件时。解决方法包括确保使用正确的JDK版本、检查类文件完整性、清理和重新编译项目。
901 14
|
人工智能 数据挖掘 Python
提升办公生产力工具——AI数据分析应用小浣熊
办公小浣熊广泛应用于日常数据分析、财务分析、商业分析、销售预测、市场分析等多个领域,为用户提供了强大的支持。
提升办公生产力工具——AI数据分析应用小浣熊
|
C语言
PTA 浙大版《C语言程序设计(第3版)》题目集 习题8-4 报数 (20分)
PTA 浙大版《C语言程序设计(第3版)》题目集 习题8-4 报数 (20分)
Flutter-自定义折叠流布局实现
Flutter-自定义折叠流布局实现
356 0
|
网络协议 安全 Unix
聊聊TCP中的TIME_WAIT
【4月更文挑战第4天】 TIME_WAIT 的产生、作用以及优化
|
网络协议 前端开发 Java
springboot整合websorket推送消息实战
springboot整合websorket推送消息实战
435 0
|
数据可视化 Linux API
使用Docker安装部署Swagger Editor并远程访问编辑API文档
使用Docker安装部署Swagger Editor并远程访问编辑API文档
|
Web App开发 前端开发 JavaScript
浏览器之性能指标-TBT
浏览器之性能指标-TBT
614 0