free_text_search
搜索倒排位置索引,并返回与搜索词相关的文档的排名引用。
该软件包处于Beta开发阶段,可能每天都有重大更改。
目标
此库的组件
- 将自由文本短语解析为查询;
- 搜索查询词的文本索引的
字典和词项列表; - 对返回的字典条目和词项列表执行迭代评分和排名;以及
- 返回与搜索短语相关的文档的排名引用。
API
类FreeTextQuery
类QueryParser
用法
待办:描述用法。
定义
以下定义在文档中全程使用
语料库–维护索引的文档集合。字典–是术语(词汇表)的哈希,用于记录其在语料库文档中的出现频率。文档–语料库中的一条记录,在语料库的主键中具有唯一的标识符(docId),并且包含一个或多个被索引的文本字段。索引–一个倒排索引,用于从语料库中查找文档引用,相对于词汇表中的术语。此软件包中的实现会构建并维护一个位置倒排索引,该索引还包括每个术语在每个文档中的位置。词项列表–一个单独的索引,记录词汇表出现在哪些文档中。在此实现中,我们还记录了每个术语在文本中的位置,以创建位置倒排索引。词项列表–文档中术语位置的记录。术语的位置是指该术语在包含文本中所有术语的数组中的索引。术语–从语料库中索引的一个单词或短语。根据使用的分词器,术语可能与语料库中使用的实际单词不同。文本–文档的可索引内容。标记–通过分词器从文本源返回的术语的表示。标记可以包含有关术语的信息,例如其在文本中的位置或出现频率。分词器–一个函数,它在应用字符过滤器、术语过滤器、词干提取器和/或词形还原器后,从文本返回一系列标记。词汇表–从语料库中索引的术语集合。
参考
- Manning, Raghavan and Schütze,“Introduction to Information Retrieval”,Cambridge University Press,2008
- University of Cambridge, 2016 “Information Retrieval”,课程笔记,Dr Ronan Cummins, 2016
- 维基百科 (1), “Inverted Index“, 来自维基百科,自由的百科全书
- 维基百科 (2), “Lemmatisation“, 来自维基百科,自由的百科全书
- 维基百科 (3), “Stemming“, 来自维基百科,自由的百科全书
问题
如果您发现错误,请提交一个问题。
本项目是一个收入项目的支持包,该项目拥有资源优先调用权,因此如果您不能立即响应问题或拉取请求,请耐心等待。
