LLM大排名屈居第六，准中文倒数第二

2023-05-29 00:39

【新智元导读】这次「LLM排位赛」，谷歌PaLM 2也被拉上溜了溜。然而，实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了！

这次，最新榜单又迎来新的玩家，PaLM 2（也是就Bard）、Claude-instant-v1，MosaicML MPT-7B，以及Vicuna-7B。

值得一提的是，即便是平价版的Claude模型，Elo得分也赶超了ChatGPT。

但有一位选手的表现，却出乎意料得拉跨——谷歌PaLM 2屈居第六，排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2（Bard）排位大比拼

谷歌PaLM 2发布以来，根据论文的测试，其部分性能已经超过了GPT-4。

而它的具体表现如何？

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口，将PaLM 2添加到Chatbot Arena，并以代码名为chat-bison@001进行聊天调优。

在过去的两周，PaLM 2已经与16个聊天机器人，进行了大约1800次的匿名比拼，目前排名第六。

从排行榜中可以看出，PaLM 2的排名高于所有其他开源聊天机器人，除了Vicuna-13B。

Vicuna-13B的ELO评分，比PaLM 2高出12分（Vicuna 1054 vs. PaLM 2 1042）。就ELO等级而言，这几乎是个平局。

另外，研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好，即GPT-4，Claude-v1，ChatGPT，Claude-moment-v1。而且，它与Vicuna的比赛中也赢了53%的比赛。

然而，PaLM 2与较弱的模型对弈时，表现较差。

在PaLM 2参加的所有比赛中，有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考，GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人

最新推荐