词性标注问题指给一个句子中的每个单词注明词性(名词,动词,形容词等)。
比如:“Bob drank coffee at Starbucks”,进行词性标注后:“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”。
条件随机场应用于词性标注时,除了考虑单词本身的词性,还会考虑前后单词的词性,综合进行判定。
1. 基本概念
(1)条件随机场
**条件随机场(CRF,conditional random field)**是给定随机变量X 条件下,随机变量Y 的马尔可夫随机场,是一种直接建模条件概率的判别式无向图模型。
设X 与Y 是随机变量,P ( Y ∣ X ) 是在给定X XX的条件下Y 的条件概率分布。若随机变量Y 构成一个由无向图G = ( V , E ) 表示的马尔可夫随机场,即
对任意节点v 成立,则称条件概率分布P ( Y ∣ X ) 为条件随机场。
(2)线性链条件随机场
设X = (X1, X2 , . . . Xn ) , Y = ( y1 y2 , . . . yn) 均为线性链表示的随机变量序列,若在给定随机变量序列X XX的条件下,随机变量Y的条件概率分布P ( Y ∣ X ) 构成条件随机场,即满足马尔科夫性
单边)
则称P ( Y ∣ X ) P(Y \mid X)P(Y∣X)为线性链条件随机场(linear-CRF)。
对于观测序列(X1, X2 , . . . Xn )),隐含序列(( y1 y2 , . . . yn)
HMM模型中,t 时刻的观测x t只取决于状态Yt
Linear-CRF模型中,t 时刻的观测x t 取决于状态Yt-1 , Yt , Yt+1
Linear-CRF是HMM的一种扩展。
2. 线性链条件随机场参数化形式
(1)参数化形式
设P ( Y ∣ X )为线性链条件随机场,则在随机变量X 取值为x的条件下,随机变量Y 取值为y 的条件概率具有如下形式:
其中,Z ( x ) 为规范化因子:
t k 是定义在边上的转移特征函数(transition feature function),依赖于当前和前一个位置:t k (Yi-1, Yi , x , i ) , k = 1 , 2 , . . . K
其中K是定义在该节点的局部特征函数的总个数,i ii是当前节点在序列的位置。
s l 是定义在节点上的状态特征函数(status feature function),依赖于当前位置:s l ( Yi, x , i ) , l = 1 , 2 , . . . L
其中L 是定义在该节点的节点特征函数的总个数,i 是当前节点在序列的位置。
条件随机场完全由特征函数si, t k 对应的权值ui , λ k 决定。特征函数的取值为0或1,即满足特征条件或者不满足特征条件;权值表示对这个特征函数的信任度。
(2)简化形式
假设某一节点有 k1个转移特征和 k2个状态特征,K = k1 + k2 ,使用一个特征函数统一表示:
对转移与状态特征在各个位置求和:
同时,统一f k ( y , x ) 权重:
因此,linear-CRF的参数化形式简化为:
将 wk 与fk 分别用向量表示:
则,linear-CRF的参数化形式简化为内积形式如下:
形式与逻辑回归类似,条件随机场实际是定义在时间序列上的对数线性模型。
(3)矩阵形式
定义m 阶(m 为y 所有可能取值的个数)矩阵:
引入特殊起点和终点标记y0= s t a r t ,yn+1 = s t o p ,这样,给定观测序列x ,标记序列y 的非规范化概率可以通过n + 1 个矩阵元素的乘积表示:
3. 条件随机场的三个基本问题
(1)概率计算问题
给定linear-CRF的条件概率分布P ( Y ∣ X ),输入序列x和输出序列y ,计算条件概率P ( y1 ∣ x )和P ( y1 − 1 ,y1 x )以及对应的期望。
一般使用前项-后向算法,通过引入前向-后向向量,递归地计算概率及期望值。
(2)学习问题
给定训练数据集X 和Y ,学习linear-CRF的模型参数w k 和条件概率P w ( y ∣ x )。通常使用极大化似然估计或正则化的极大似然估计,即通过极大化训练数据的对数似然函数来估计模型参数,具体算法包括改进的迭代尺度算法、梯度下降法,拟牛顿法等。
(3)解码问题
给定 linear-CRF的条件概率分布P ( y ∣ x ) ,和输入序列x , 计算使条件概率最大的输出序列y 。
可使用维特比算法解决。