测试数据显示,在参与评估的85个大语言模型中,GLM-4-9B以98.7%的事实一致性率和 100% ...