具有并行注意力层和前馈层的注意力神经网络的制作方法

背景技术:
1、本说明书涉及使用神经网络来对网络输入执行机器学习任务。
2、神经网络是采用一个或多个非线性单元层来预测所接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应的参数集的当前值从所接收的输入生成输出。
技术实现思路
1、本说明书描述了一种被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统,该系统使用包括并行注意力层的注意力神经网络对网络输入执行机器学习任务。并行注意力层包括与前馈子层并行排列的注意力子层。
2、可实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一者或多者。
3、本说明书中描述的技术允许注意力神经网络系统通过使用注意力层的新的、并行配置来以比现有的基于注意力的神经网络更大的模型吞吐量处理输入序列、生成输出序列或两者,在注意力层的新的、并行配置中,前馈层和注意力层并行排列,即,而不是像现有的基于注意力的神经网络那样堆叠在彼此之上。在一些示例中,注意力神经网络每秒可处理比常规的基于注意力的神经网络多40%的固定长度输入序列。这种并行配置还使得基于注意力的神经网络更适合部署在包括使用专用电路系统执行矩阵乘法的硬件加速器装置的现代并行计算硬件上。
4、另外,在一些示例中,相对于现有的基于注意力的神经网络(包括以前被认为是最先进的那些神经网络)相比,这种并行配置可在各种机器学习任务上实现同等或甚至更好的性能,例如,更好的困惑度(perplexity)或输出质量的其他准确度度量,诸如f-1分数。具体地,并行配置减少了具有可比较数量的模型参数的注意力神经网络的总体深度,使得提高注意力神经网络的性能,而不是像采用常规的注意力层配置时那样降低注意力神经网络的性能。
5、在下文的附图和描述中阐述本说明书的主题的一个或多个实施例的细节。本主题的其他特征、方面和优点根据描述、附图和权利要求将变得显而易见。
技术特征:
1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:
2.如权利要求1所述的系统,其中确定所述关注的输入序列与所述经变换的输入序列的所述组合包括对于所述层的所述输出序列中的所述多个输出位置中的每一个输出位置:
3.如权利要求1至2中任一项所述的系统,其中所述注意力层还被配置为将所述层的所述输出序列作为输入提供给所述注意力神经网络中的后续神经网络层。
4.如权利要求3所述的系统,其中所述后续神经网络层包括层归一化层,所述层归一化层被配置为将层归一化应用于所述层的所述输出序列。
5.如权利要求1至4中任一项所述的系统,其中包括在所述前馈子层中的所述一个或多个前馈神经网络层包括由一个或多个非线性激活层分隔的两个或更多个全连接层。
6.如权利要求5所述的系统,其中非线性激活层包括swish激活层。
7.如权利要求1至6中任一项所述的系统,其中所述网络输入包括按输入顺序排列的网络输入序列,并且其中所述注意力神经网络还包括嵌入层,所述嵌入层被配置为对于所述序列中的每个网络输入:
8.如权利要求1至7中任一项所述的系统,其中所述注意力子层被配置为通过以下应用所述注意力机制:
9.如权利要求8所述的系统,其中由所述注意力子层应用的所述注意力机制包括多头注意力机制,并且其中所述注意力子层包括多个注意力头,每个注意力头被配置为通过以下应用所述多头注意力机制:
10.如权利要求9所述的系统,其中所述注意力子层被配置为通过以下生成所述关注的输入序列:
11.如权利要求8至10中任一项所述的系统,其中所述注意力子层还被配置为将逐深度卷积函数应用于所述查询向量。
12.如权利要求8至11中任一项所述的系统,其中所述注意力子层和所述前馈子层被配置为通过以下生成所述关注的输入序列和所述经变换的输入序列:
13.如前述权利要求中任一项所述的系统,其中所述注意力子层和所述前馈子层被配置为并行操作。
14.一种或多种计算机存储介质,所述计算机存储介质存储指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机实现如权利要求1至12中任一项所述的注意力神经网络。
15.一种方法,包括如权利要求1至12中任一项所述的注意力层被配置为执行的操作。
技术总结
方法、系统和设备,包括被编码在计算机存储介质上的计算机程序,用于对网络输入执行机器学习任务以生成网络输出。系统中的一个包括被配置为执行机器学习任务的注意力神经网络,该注意力神经网络包括多个注意力层,每个注意力层包括与前馈子层并行排列的注意力子层。
技术研发人员:阿坎克沙·乔杜里,雅各布·丹尼尔·德夫林,沙兰·纳兰
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/11/18
技术研发人员:阿坎克沙·乔杜里,雅各布·丹尼尔·德夫林,沙兰·纳兰
技术所有人:谷歌有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
