DoNews7月13日消息(记者 翟继茹)13日,记者从创新工场获悉,其最新提出了中文分词和词性标注模型,可将外部知识(信息)融入分词及词性标注模型,剔除了分词“噪音”误导,提升了分词及词性标注效果。在NLP中,中文分词和词性标注是中文自然语言处理的两个基本任务,尤其在工业场景对分词有非常直接的诉求,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。创新工场方面解释,中文语言因其特殊性,在分词时面临着两个主要难点。一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”、“民生”等歧义词。“他从小学电脑技术”,正确的分词是:他/从小/学/电脑技术,但也存在“小学”这种歧义词。
二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名。这类问题在跨领域分词任务中尤其明显。因此,在“键-值记忆神经网络的中文分词模型”的模型中,利用n元组(即一个由连续n个字组成的序列,比如“居民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。
在算法实验中,该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现,均刷新历史成绩。
创新工场大湾区人工智能研究院执行院长宋彦表示,与前人的模型进行比较发现,该模型在所有数据集上的表现均超过了之前的工作,“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”在基于双通道注意力机制的分词及词性标注模型中,将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献,从而降低了“噪音”。创新工场介绍,在和斯坦福大学的 CoreNLP 工具的相比中,该模型有近10个百分点的提升。
在场景应用上,创新工场主要希望解决工业场景的突破,宋彦表示,“在工业场景使用的时候,跨领域的模型能力是一个非常直接的诉求。”创新工场介绍,“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”两篇文章,已经入选自然语言处理领域(NLP)顶级学术会议 ACL 2020。(完)