本周早些时候,Meta公司因在众包基准测试平台LM Arena上使用其Llama 4 Maverick模型的未发布实验版本并取得高分而备受争议。
这一事件引发了广泛关注,促使LM Arena的维护团队出面道歉,并随即调整了其评分政策,转而采用未经修改的原版Maverick模型进行评估。结果显示,该模型在未经优化的情况下,其竞争力并不突出。
截至周五,未经修改的Maverick模型“
Llama-4-Maverick-17B-128E-Instruct”在排名上落后于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等模型。值得注意的是,这些竞争模型中的许多都是在数月前便已推出的。
那么,为何Maverick模型在未经修改的情况下表现不佳呢?Meta公司在上周六发布的一份图表中给出了解释。原来,其实验性的Maverick模型
Llama-4-Maverick-03-26-Experimental已经“针对对话性进行了优化”。这些优化在LM Arena的测试中确实取得了显著成效,因为该平台依赖于人类评分员来比较不同模型的输出,并选择他们更偏好的模型。
尽管LM Arena因其测试方式而备受关注,但它从来都不是衡量AI模型性能的最可靠指标。根据基准测试来定制模型,不仅可能产生误导性结果,还会让开发人员难以准确预测模型在不同环境下的实际表现。
对此,Meta公司的一位发言人在一份声明中表示,Meta已经尝试了“各种类型的自定义变体”。
该发言人指出:“‘
Llama-4-Maverick-03-26-Experimental’是我们测试过的聊天优化版本,在LM Arena上的表现确实令人印象深刻。然而,我们现在已经发布了开源版本,并将密切关注开发者如何根据自身需求来定制Llama 4。我们非常期待看到他们的创新成果,并珍视他们持续的反馈。”
(9726215)