就在昨天腾讯的全球数字生态大会上,腾讯大模型混元终于亮相了。
为什么要说终于?
在各方消息看来,除了像小米这种说不打算做大模型的之外,绝大部分大厂们基本都已经陆续上线过大模型了。
其实,腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS ( Model-as-a-service ,模型即服务 )解决方案。
方案中包含了很多行业大模型,只不过当时腾讯的通用大模型依旧还很神秘。
后续的各种消息、报道里,腾讯也在内部不断打磨混元大模型。
所以这也让差评君对混元的期待值,越来越高。
毕竟上一个用 “hun yuan ” 名号的,可是打了一整套闪电五连鞭。
话不多说,下面就开始新一轮大模型测试。
本次测试和混元同场竞技的是,大模型界的老学长 ChatGPT 。
整个测试环节将分:常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结,以及大家喜闻乐见的弱智吧问答等 8 个维度。
这次我们一反常态,把长文总结能力的测评放在了第一位。
因为我们让大模型总结的,就是这篇测评本身( 除长文总结能力部分 )。
至于能不能当成省流版,往下看你就懂了。混元的总结非常精练,但过于精练,以至于我很难从这个总结得出有效的信息。
但当我让他展开讲讲的时候其实还行,但可惜无中生有了 “ 长文总结 ” 这个模块。
而 ChatGPT 由于输入字数限制,被我人为分成了两部分输入,不确定这有没有没影响它的总结能力。
在回答中,它莫名克扣了对自己的所有评测,甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点,也不好用。