Python语义转导双向编码表征和spaCy(命名实体识别和文本分类)提取旅游信息

梗概

Python和spaCy统计信息提取(折叠目录)

网络中的典型信息搜索需要文本或字符串匹配。当用户搜索信息时，搜索引擎会返回包含匹配字符串的相关文档。用户需要通过相关链接浏览网站是否在感兴趣的范围内，非常耗时。

为了方便用户搜索，信息提取工具可以帮助用户找到相关文档。典型的方法需要诸如词法分析、句法分析、语义分析等过程。此外，根据域中的一组关键字，计算词频和词共现。不同的算法提出了不同的规则来确定共现。这些方法大多是手工编码的规则，可能高度依赖于用于推断文档含义的语言和域。

使用机器学习方法可以促进规则抽取过程。预训练语言模型嵌入单词的现有表示并可用于自动提取它们的关系。如今，有许多预训练的语言模型，例如 BERT。它提供了一个上下文模型，也可以针对特定的语言和/或领域进行调整。因此，它已被使用普遍作为基础并扩展到执行许多语言处理任务。

在本文中，我们专注于执行基本自然语言处理 (NLP) 任务的机器学习方法。所讨论的任务是命名实体提取和文本分类。我们的工作如下：

我们通过现有旅游本体的例子来探索旅游信息的例子类型。由于我们专注于使用机器学习从文档中提取关系，因此我们在本文综述中描述了自然语言处理中的机器学习和深度学习。