中文问题里的中心词识别研究 摘 要 问题分类是自动问答系统中对自然语言问题进行问题理解的关键步骤。寻
找与问题类别密切相关的特征,对提高问答系统整体的处理性能和效率非常重
要。中心词是问题中最能表达“问题问的是什么”的词或词组,包含丰富的语
义信息,可以用于确定 问题所属的类别。 本文主要针对中文问题里的中心词进行研究,利用中文问题的特点以进一
步提高中心词的抽取精度,达到改善问题分类效果的目的。 本文的主要研究工作如下: (1) 考虑到基于中心词词性、位置等表面特征的启发式规则的合理性以及
其易受训练问题集影响的局限性,在观察和分析中心词在问题的句法结构中的
词性、依存关系及其与疑问词的关联性的基础上,提出了条件随机场和错误驱
动相结合的 中心词识别方法。该方法主要利用错误驱动的思想,对条件随机场
标注的结果进行反复校正学习,直到识别结果稳定收敛,最终筛选出能对条件
随机场方法产生的负面结果具有抑制作用的有序规则集。对错误驱动算法进行
改进, 以减少有序规则的训练时间。实验表明了本文方法的有效性。