谷歌团队研究证明，AI标注已达人类水平

2023-09-06 23:08

ChatGPT横空出世后，RLHF成为研究人员关注的焦点。谷歌最新研究提出，不用人类标注，AI标注偏好后，也能取得与RLHF一样的效果。

如果说，RLHF中的「人类」被取代，可行吗？

谷歌团队的最新研究提出了，用大模型替代人类，进行偏好标注，也就是AI反馈强化学习（RLAIF）。

论文地址：https://arxiv.org/abs/2309.00267

结果发现，RLAIF可以在不依赖人类标注员的情况下，产生与RLHF相当的改进效果，胜率50%。

同时，谷歌研究再次证明了RLAIF和RLHF，比起监督微调（SFT）胜率都超过了70%。

如今，大型语言模型训练中一个关键部分便是RLHF。人类通过对AI输出的质量进行评级，让回应更加有用。

但是，这需要付出很多的努力，包括让许多标注人员暴露在AI输出的有害内容中。

既然RLAIF能够与RLHF相媲美，未来模型不需要人类反馈，也可以通过自循环来改进。

最新推荐