Mixtral of Experts

https://arxiv.org/abs/2401.04088

Mistral开发的Mixtral 8x7B模型集成了一个Sparse mix -of- experts (SMoE)架构,在每层中有8个专门的块,通过路由为每个标记令牌选择两个专家来进行专门处理。但它总共访问470亿个参数,但是令牌在每个时间步只与两个专家交互,所以在推理期间主动使用参数为130亿个。

MoE-Mamba

https://arxiv.org/abs/2401.04081

混合专家的Mamba。MoE- mamba是一种选择性状态空间模型,它结合了混合专家(MoE)来提高效率。它以2.2倍的计算步骤实现了与Mamba模型相同的性能,同时保持了快速的推理。并且MoE-Mamba的性能优于原始Mamba和MoE的Transformer模型。

How to guess a gradient

https://arxiv.org/abs/2312.04709. 神经网络梯度显示基于网络结构和特征的可预测模式。这些模式可以通过架构约束的梯度子空间来估计,潜在地提高了复杂网络中无梯度优化的效率。这是一篇很有意思的论文

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

https://magicvideov2.github.io/

字节的MagicVideo-V2它利用文本到图像模型、运动生成、参考图像合成和帧插值来创建高分辨率、视觉上吸引人的流畅视频内容。

Learning to Prompt with Text Only Supervision for Vision-Language Models

https://muzairkhattak.github.io/ProText/

这个项目提出了一种技术来保持类似clip的视觉语言模型的泛化能力,同时使它们适应不同的任务。提示是从LLM数据中学习的,因此不需要标记图像。

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

https://arxiv.org/abs/2401.04056)

Self-Play Preference Optimization(SPO)是一种比传统RLHF更简单的对齐方法。利用博弈论,研究人员能够开发出模型自己进行训练的方式,并且提供良好的性能。

Towards the Law of Capacity Gap in Distilling Language Models

https://github.com/genezc/minima

语言模型(LM)蒸馏是一个趋势领域,蒸馏的目标将大型教师模型中的知识提炼到小型学生模型中。论文将从7B教师LM(改编为LLaMA2-7B)中提炼出3B学生LM(称为MiniMA),的流程做了详细的描述。