MiniMax-01 系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从 Scaling Law、与 MoE 的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax 选择模型参数量为 4560 亿,其中每次激活 459 亿,能够高效处理高达 400 万 token ...