嗨热线网 > 科技 >

OpenAI的Q*到底是啥

2023-11-27 01:39

OpenAI在11月22号的时候给员工发了一封内部信,承认了Q*,并将这个项目描述为“超越人类的自主系统”。着实让人感觉到有一丝丝可怕。

虽然OpenAI官方没有放出任何有关Q*的消息,但是我们还是能浅浅了解。

首先第一步,我们要认识Q*的读法,官方正式名称叫做Q-Star,翻译过来就是Q星。对,你没看错,即便深度学习中,区块之间是通过乘积来求解的,但是在Q*里,“*”并不是乘的意思,而是“星号”。“Q”这个字母在强化学习中表示一个动作的期望奖励。

在人工智能领域里,但凡跟大写Q沾边的,本质都是Q学习。Q学习以现在的评判标准可以算是强化学习的一种,指的是在训练的过程中,以记录训练历史奖励值的方式,告诉智能体下一步怎么样选才能跟历史最高奖励值相同。但请注意,历史最大奖励值并不代表模型的最大奖励值,有可能是,也有很大可能不是,甚至还有可能八竿子打不着。

换句话说,Q学习和智能体就像是一支球队的分析师和教练之间的关系。教练负责指导球队,分析师则用来辅佐教练。

在强化学习的过程中,智能体输出的决策是要反馈到环境中才能得到奖励值。而Q学习因为只记录奖励值,因此它不需要对环境进行建模,相当于“结果好,一切就好”。

不过这样看下来,好像Q学习还不如现在人工智能,尤其是大模型常用的深度学习模型。像现在这种动不动几十亿几百亿这么多参数下,Q学习不仅对模型没什么帮助,反倒还增加了复杂性,从而降低了鲁棒性。

别急,其实这是因为上述Q学习背后的思路本身只是一个诞生于1989年的基本概念。

DeepMind在2013年的时候曾经通过改进Q学习,推出过一个算法叫做深度Q学习,其最鲜明的特点就是使用经历回放,从过去多个结果中进行采样,再使用Q学习,进而达到提高模型的稳定性,降低模型因为某一次结果导致训练方向过于发散。

然而实话实说,这个概念一直没有走红也是有原因的,而从实际意义来看,深度Q学习此前在学界看来最大的作用就是开发出了DQN。

DQN是指深度Q网络,诞生于深度Q学习。DQN的思路和Q学习是一模一样的,但是在求得Q学习中最大奖励值的过程,是用神经网络来实现的。这一下子就fashion了起来。

DQN同一时间只会生成一个节点。与此同时,DQN会生成一个优先级队列,然后再把剩下的节点和动作的元祖存到优先级队列里。显而易见,一个节点肯定不够用,如果全程就一个节点那最后求解的答案一定错得离谱。当节点和动作元祖从队列中移出来的时候,就会根据这个动作应用到已经生成的那个节点得出来的关联性进而生成一个新节点,以此类推。

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com