这就是斯坦福、MIT等科研机构推出的低秩线性转换LoLCATs(Low-rank Linear Conversion with Attention Transfer)。 应用LoLCATs,可以实现传统注意力(softmax ...