读书人

花了几个月时间和几个师姐们做的毕业设

发布时间: 2012-03-03 15:33:03 作者: rapoo

花了几个月时间和几个师姐们做的毕业设计(一个简单的网页搜索引擎),请各位前辈多多指导,谢谢!
花了几个月时间和几个师姐们做的毕业设计(一个简单的网页搜索引擎),请各位前辈多多指导,谢谢!

http://www.bwsyq.com/index.aspx?q=%E6%AF%95%E4%B8%9A%E8%AE%BE%E8%AE%A1
前端我们用 asp.net 开发的,后端用C++开发的,现在还有搜索下拉,热门词汇统计,相关词汇,相关搜索等方面没有设计好,另外就是界面方面做的不太好!

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 

从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到 30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。

大家看看行不行,请各位前辈多多指导,谢谢!

[解决办法]
麻雀虽小,五脏俱全
[解决办法]
路过……
[解决办法]
我刚看了一下 www.bwsyq.com 搜索的时候还有搜索下拉智能提示
谁做的搜索引擎?,佩服啊,能出来交流一下不?

输入 性 下面还出来
性交
性爱
性交易
性能力

完全类似 google 的搜索下拉啊,佩服
[解决办法]
好东西,能不能详细说说asp.net做的什么功能;C++做的什么功能?

大家一起探讨
[解决办法]

探讨
我刚看了一下www.bwsyq.com 搜索的时候还有搜索下拉智能提示
谁做的搜索引擎?,佩服啊,能出来交流一下不?

输入 性 下面还出来
性交
性爱
性交易
性能力

完全类似 google 的搜索下拉啊,佩服

[解决办法]
徘徊在NA和NC之间
[解决办法]
输入google,出来的是白度百科^_^
[解决办法]
试过了,不错不错
[解决办法]
NB
[解决办法]
强 呵呵

读书人网 >网络基础

热点推荐