在语言建模、常识推理和「大海捞针」等任务中,它不仅超越了传统Transformer和现代线性RNN,还在超过200万上下文窗口的任务中 击败了GPT-4和Llama3-70B等超大模型 。