DeepMind智能体Gato新特性

发布时间：2022-05-23 | 阅读次数：1192 次

1、智能体Gato简介

最近，Deepmind发布了一个通用性的智能体：Gato，其在西班牙语中的含义为“猫”。按照DeepMind的说法，Gato可以使用具有相同权重的同一个神经网络，能学习到各种不同模式的数据，实现了聊天、视图等任务，甚至还能在现实环境里控制机械臂，真正达到了通用智能。此杀器一出，震惊四座，无不对Deepmind竖起来大拇指。

2、智能体Gato原理介绍

Gato的训练数据集十分广泛，包括不同模态的各色数据，如图像、文本、本体感觉（proprioception）、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据，Deepmind将所有数据序列化为一个扁平的token序列。在这种表示中，Gato可以从类似于标准的大规模语言模型进行训练和采样。在部署期间，采样的token会根据上下文组合成对话响应、字幕、按钮按下或其他动作。看到这里，我们已经明白了，这是一个action-env-state的强化学习模型。下图为Gato的训练流程：

在Gato的训练阶段，来自不同任务和模态的数据被序列化为扁平的token序列，由一个类似于大型语言模型的transformer神经网络进行深度学习。

DeepMind的这项最新工作将强化学习、计算机视觉和自然语言处理这三个领域合到一起，虽然技术思路上沿用了前人的方法，但能将CV、NLP和RL这三个不同模态映射到同一个空间，用一套参数表达，还是非常不容易的。

3、智能体Gato与Transformer

正如Deepmind所言：我们受到语言大模型Transformer的启发，用类似的方法把模型能力拓展到文本之外的领域。这次立功的又是语言大模型中常用的Transformer架构。Transformer的本质就是把一个序列转换(transform)成另一个序列。文本自不必说，天然就是序列信息；对于图像而言，可以先按nxn像素分割，再给每个像素块编上号处理成序列；玩游戏时的按键输入同样是序列，操纵机器人时的传感器信号和关节力矩属于连续值，也通过一系列采样和编码处理成离散序列；最终，所有序列数据都交给同一个Transformer处理。