读书人

搜索引擎:第一章布尔查询学习札记

发布时间: 2013-04-09 16:45:09 作者: rapoo

搜索引擎:第一章布尔查询学习笔记

第一章布尔查询学习笔记

倒排序记录

提取词 文档ID 对词排序 去重

New 1 Forcasts Forcasts

Home 1 Home Home

Sales 1 In In

Top 1 July July

Rise 1 New New

Forcasts 2 Rise Rise

Sales 2 Sales Sales

In 2 Sales

July 2

对词的排序时根据字母的顺序完成的。

布尔查询

Word / DocNum 1 2 3 4

Think 1 0 0 0

Thank 1 1 0 1

For 0 1 0 1

Approach 1 0 1 0

其中,前前页存在为1,0为不存在。

如果要找 Think and For,则只需要用1000 and 0101 =》 0000,整个文档没有同时此种存在的情况。

一些概念评价搜索的概念

正确率:返回的结果中真正和信息需求相关的文档所在百分比。

召回率:所有和信息需求真正相关的文档中被检索系统返回的百分比。

一个词条:在文档中出现的字符序列的一个实例。

一个词条:相同词条构成的集合。

词干还原:一个很粗略的去除单词两端词缀的启发式过程,并希望大部分时间它都能达到这个正确目的,这个过程也常常包括去除派送词缀。

词形归并:利用词汇表和词形分析来去除曲折词缀,从而返回词的原形或词典中的词的过程,返回的结果称为词源。

跳表:在链式结构中,设置跳表,可以快速的找到要插入的位置。

搜索引擎:第一章布尔查询学习札记


目的:可以快速的对数据进行合并。

跳表指针只对and类型的查询有用,而对or类型的查询不起作用。(对于复杂查询产生的中间结果调用hasskip(p)函数则永远返回false)。

跳表的位置一般为P的开方。

读书人网 >网络基础

热点推荐