For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
目前语言建模的主要方法都是基于循环神经网络的。据潍坊软件开发培训小编得知在本研究中,提出了一种使用卷积方式处理的语言建模方式。我们引入了一种新的门控机制,可以缓和梯度传播,它的表现比LSTM方式的门控更加优秀。
在WikiText-103上创造了新的最高纪录,在Google Billion Word基准上进行了单GPU测试,结果创造了新的最快记录。我们的模型的速度相较其他模型提升了一个数量级。目前为止,这是第一次出现非训话方式在此类任务中超越了循环方式。
我们在单个GPU系统中进行了实验,证明了使用门控卷积网络的语言建模优于其他最近发布的语言模型,如在Google Billion上类似设置训练的LSTM Word基准。
近年来,神经网络在此类任务的表现超过了n元语法模型(Kneser & Ney,1995;Chen & Goodman,1996)。经典的语言模型面临数据短缺的问题,无法准确表征长段语句,缺乏分析长范围从属关系的能力。
在本文中,潍坊软件开发培训小编介绍了门控卷积网络并将其应用于语言建模。卷积网络可以被堆叠以表示大的上下文尺寸,并且在具有在更大的上下文范围内提取分层更抽象的特征。
神经语言模型通过在应用神经网络的连续空间中嵌入单词来解决这个问题。语言建模的当前技术水平基于长短期记忆网络,理论上可以建模任意长的从属关系。
这种特性允许我们通过在大小N和内核宽度k的上下文上应用O运算来建模长期从属关系。相反,循环网络将输入视为链结构,因此需要线性数目O(N)的操作。
输入分层的分析与类似于经典语法形式的构造相似,其构建了间隔增大的句法树结构。例如,由包含复杂内部结构的名词短语和动词短语组成的句子。
现代计算机硬件非常适合运行高度并行化的模型。在循环网络中,下一个输出取决于前一个的隐藏状态,它不启用对序列元素的并行化。卷积网络非常适合于此类计算,因为所有输入字的计算可以同时执行。
我们还评估了我们的模型分析WikiText-103基准中长距离从属关系的能力,潍坊软件开发培训知悉模型以整个段落而不是单个句子为条件进行处理,且我们在此基础上实现了新的最快记录。我们展示了门控线性单元可以实现更高的精度和收敛,比OST等人的LSTM门控更快。