自然语言处理,通常缩写为 NLP,是计算机科学和人工智能 (AI)的一个分支,它关注使计算机能够以与人类相同的方式理解口语和文本。NLP 技术理想地使机器不仅能够理解文本或语音数据,而且能够用自己的文本或语音做出响应。该技术借鉴了多个领域——计算语言学、机器学习模型、深度学习模型和统计模型——以更好地连接人机通信。
什么是 NLP,它是如何工作的?
NLP 的工作原理是将语言分解成更短、更简单的部分,称为标记。标记是我们用来串在一起并形成句子的语言部分,例如单词和标点符号。然后,NLP 技术尝试使用更高级别的 NLP 功能来理解这些令牌之间的关系,其中包括:
- 内容分类:提供语言文档摘要,包括内容警报、重复检测、搜索和索引
- 主题发现和建模:解释文本组的主题和含义,并将高级分析应用于文本
- 上下文提取:自动从基于文本的源中提取结构化数据
- 情感分析:识别存储在大量文本中的基于观点的语言
- 文本到语音和语音到文本的转换:将语音命令转换为文本,反之亦然
- 文档摘要:通过自动创建概要来压缩大量文本
- 机器翻译:类似于语音翻译,自动将文本或语音从一种语言翻译成另一种语言。
自然语言处理被广泛用于各种行业并且有很多用途。一些突出的例子包括电子邮件过滤器、智能助手、搜索结果、预测文本、语言翻译、数字电话、数据分析和文本分析。
NLP 对于基于机器学习的数据标注过程也很重要。数据标注是指为数据添加注释或标记以便机器学习程序可以识别的过程。在 NLP 的上下文中,数据标记可以帮助计算机为口语或文本分配含义。NLP 是一种有用的数据标记方法,尤其是在处理文本数据时。NLP 可用于通过多种方法自动化数据学习。NLP 在数据标记中的一个常见用例是教计算机以一种称为命名实体识别的方法检测或发现句子的核心含义。可以教计算机识别某些单词或短语并为其赋予含义,例如检测“Eric”是一个人或“California”是一个位置。
NLP 可以为数据标记提供的另一种方法是语义分析——一种可以识别句子语调的算法。这种方法的一个常见示例是教计算机识别正或负的二进制音调,尽管已经使用了具有更多细微差别的更高级的分类器。此方法也可以应用于标题为“文档标签”的字段中的整个文档。
NLP 数据标记中其他更高级的任务包括:
- 共指解析——查找对文本中特定实体的所有引用的任务
- 依存关系解析——教计算机检查句子中单词之间的依存关系以分析其语法结构
- 语法树——也称为解析树;指的是发现句子句法的树结构
这些方法可以帮助机器更好地分解句子的结构并导航人类语言中的歧义。上述方法也可以相互混合使用,以突出文档标签的单个单词。