动手学深度学习，二：循环神经网络

2023-11-12 06:52•java•阅读 2675

语言模型

语言模型（language model）是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。

我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为T的文本中的词依次为w1,w2,…,wT，那么在离散的时间序列中，wt（1≤t≤T）可看作在时间步（time step）t的输出或标签。

1、语言模型的计算

动手学深度学习，二：循环神经网络

例如，在一段含有4个词的文本序列的概率：

动手学深度学习，二：循环神经网络

我们需要计算词的概率，以及一个词在给定前几个词的情况下的条件概率，即语言模型参数。P(w1)可以计算为w1在训练数据集中的词频（词出现的次数）与训练数据集的总词数之比。P(w2∣w1)可以计算为w1,w2两词相邻的频率与w1词频的比值，因为该比值即P(w1,w2)与P(w1)之比；而P(w3∣w1,w2)同理可以计算为w1、w2和w3三词相邻的频率与w1和w2两词相邻的频率的比值。以此类推。

2、n元语法

当序列长度增加时，计算和存储多个词共同出现的概率的复杂度会呈指数级增加。n元语法通过马尔可夫假设（虽然并不一定成立）简化了语言模型的计算。这里的马尔可夫假设是指一个词的出现只与前面n个词相关，即n阶马尔可夫链。

例如，长度为4的序列w1,w2,w3,w4在一元语法、二元语法和三元语法中的概率分别为

动手学深度学习，二：循环神经网络

循环神经网络

通过隐藏状态来存储之前时间步的信息。

动手学深度学习，二：循环神经网络

上一篇 »word2vector：NPLM、CBOW、Skip-gram
下一篇 »Java学习之多线程二

动手学深度学习，二：循环神经网络

语言模型

1、语言模型的计算

2、n元语法

循环神经网络

相关推荐

java网络编程学习笔记，二：socket详解

《译文》借助OCR和神经网络，用JavaScript识别验证码

javascript 数组的深度复制

[PHP]算法- 二叉树的深度的PHP实现

python学习之基于Python的人脸识别技术学习

python学习之基于Python的人脸识别技术学习

python人工智能算法之人工神经网络

python人工智能算法之人工神经网络