语言模型
一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 T 的词的序列 w1,w2,…,wT ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:
P(w1,w2,…,wT).
本节我们介绍基于统计的语言模型,主要是 n 元语法( n -gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。
nlp入门基础之语言模型
文章目录nlp入门基础之语言模型1. 简介2. n元语法
1. 简介
一段自然语言文本可以看做是一个离散时间序列s=ω1,ω2,⋯ ,ωTs=\omega_1,\omega_2,\cdots,\omega_Ts=ω1,ω2,⋯,ωT,而一个语言模型的作用是构建这个时间序列的概率分布P(s)P(s)P(s)。概率计算公式可以表示为:
KaTeX parse error: No such environment: align* at position 8:
\beg