free_text_search

搜索倒排位置索引,并返回与搜索词相关的文档的排名引用。

该软件包处于Beta开发阶段,可能每天都有重大更改。

目标

此库的组件

  • 将自由文本短语解析为查询;
  • 搜索查询词的文本索引的字典词项列表
  • 对返回的字典条目和词项列表执行迭代评分和排名;以及
  • 返回与搜索短语相关的文档的排名引用。

Free text search overview

API

FreeTextQuery

QueryParser

用法

待办:描述用法。

定义

以下定义在文档中全程使用

  • 语料库–维护索引文档集合。
  • 字典–是术语词汇表)的哈希,用于记录其在语料库文档中的出现频率。
  • 文档语料库中的一条记录,在语料库的主键中具有唯一的标识符(docId),并且包含一个或多个被索引的文本字段。
  • 索引–一个倒排索引,用于从语料库中查找文档引用,相对于词汇表中的术语。此软件包中的实现会构建并维护一个位置倒排索引,该索引还包括每个术语在每个文档中的位置。
  • 词项列表–一个单独的索引,记录词汇表出现在哪些文档中。在此实现中,我们还记录了每个术语文本中的位置,以创建位置倒排索引
  • 词项列表文档术语位置的记录。术语的位置是指该术语在包含文本中所有术语的数组中的索引。
  • 术语–从语料库中索引的一个单词或短语。根据使用的分词器术语可能与语料库中使用的实际单词不同。
  • 文本文档的可索引内容。
  • 标记–通过分词器从文本源返回的术语的表示。标记可以包含有关术语的信息,例如其在文本中的位置或出现频率。
  • 分词器–一个函数,它在应用字符过滤器、术语过滤器、词干提取器和/或词形还原器后,从文本返回一系列标记
  • 词汇表–从语料库中索引的术语集合。

参考

问题

如果您发现错误,请提交一个问题

本项目是一个收入项目的支持包,该项目拥有资源优先调用权,因此如果您不能立即响应问题或拉取请求,请耐心等待。

GitHub

查看 Github