嗨热线网 > 科技 >

LLM大排名屈居第六,准中文倒数第二

2023-05-29 00:39

【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了!

这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。

但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2(Bard)排位大比拼

谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。

而它的具体表现如何?

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。

在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。

从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。

Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。

另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。

然而,PaLM 2与较弱的模型对弈时,表现较差。

在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com