DeepMind智能体Gato新特性

发布时间:2022-05-23;阅读次数:1072 次

1、智能体Gato简介

最近,Deepmind发布了一个通用性的智能体:Gato,其在西班牙语中的含义为“猫”。按照DeepMind的说法,Gato可以使用具有相同权重的同一个神经网络,能学习到各种不同模式的数据,实现了聊天、视图等任务,甚至还能在现实环境里控制机械臂,真正达到了通用智能。此杀器一出,震惊四座,无不对Deepmind竖起来大拇指。

2、智能体Gato原理介绍

Gato的训练数据集十分广泛,包括不同模态的各色数据,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据,Deepmind将所有数据序列化为一个扁平的token序列。在这种表示中,Gato可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的token会根据上下文组合成对话响应、字幕、按钮按下或其他动作。看到这里,我们已经明白了,这是一个action-env-state的强化学习模型。下图为Gato的训练流程:

在Gato的训练阶段,来自不同任务和模态的数据被序列化为扁平的token序列,由一个类似于大型语言模型的transformer神经网络进行深度学习。

DeepMind的这项最新工作将强化学习、计算机视觉和自然语言处理这三个领域合到一起,虽然技术思路上沿用了前人的方法,但能将CV、NLP和RL这三个不同模态映射到同一个空间,用一套参数表达,还是非常不容易的。

3、智能体Gato与Transformer

正如Deepmind所言:我们受到语言大模型Transformer的启发,用类似的方法把模型能力拓展到文本之外的领域。这次立功的又是语言大模型中常用的Transformer架构。Transformer的本质就是把一个序列转换(transform)成另一个序列。文本自不必说,天然就是序列信息;对于图像而言,可以先按nxn像素分割,再给每个像素块编上号处理成序列;玩游戏时的按键输入同样是序列,操纵机器人时的传感器信号和关节力矩属于连续值,也通过一系列采样和编码处理成离散序列;最终,所有序列数据都交给同一个Transformer处理。


这里是面试天下,一个集技术与人文的交流平台,欢迎大家的关注和参与。

技术只会随着时代的发展而逐渐贬值,犹如之前的算盘手艺。用技术武装自己仅是第一步,懂得营销自己才是核心竞争力。



发文规范:

1、这里是自由交流的天地,我们希望大家公平、公正、自由地发表自己的看法。

2、我们希望看到真实的诉说,我们反对任何造假,我们希望看到扬善惩恶,让社会发展的更好。

3、谋反,自古以来在历朝历代都是罪大恶极,在这里不允许出现反党反国家的言论。

4、我们保证每个人的信息都是严格保密,不会署名,只希望这里是个自由交流的天地。

5、每人每个月可以发表三条点评,避免产生噪声以影响社群的安宁。