【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。
由UC伯克利主导的「LLM排位赛」又双叒更新了!
这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。
值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。
但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。
4月24日-5月22日数据
PaLM 2(Bard)排位大比拼
谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。
而它的具体表现如何?
来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。
在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。
从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。
Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。
另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。
PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。
然而,PaLM 2与较弱的模型对弈时,表现较差。
在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。
作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人