语言模型
语言模型(Language Model)通过对句子的上下文特征进行数学建模,来回答一个问题:出现的句子是否合理。
语言模型是自然语言的基础,广泛应用于机器翻译、语音识别、拼写纠错、输入法、手写体识别等。
对于一个由单词构成的句子s = w 1 w 2 .w n,其概率计算公式:
在统计语言模型中,一般采用极大似然来计算每个词出现的条件概率:
假设词汇集的大小为L ,对于一个长度为n 的句子进行建模,则需要计算ln个参数。假设L = 5000 , n = 3则参数个数就是1250亿个。
为解决参数空间过大的问题,引入了马尔可夫假设,即第N 个词出现的概率只与前面出现的N − 1 个词有关,称为n-gram。
n = 1 ,一元模型(unigram),即每个词之间都是相互独立的:
n=2,二元模型(bigram)
n=3,三元模型(trigram)