<<这就是搜索引擎>>学习笔记-算法之索引压缩
前一段时间.在微博上中奖了.
一个叫张俊林的帅锅.送了俺一本书.由于工作(其实是懒惰),一直木有好好看..书到手一个月了才看了80多页.
现在终于要过年了.开始看了..顺路给自己做个笔记.在这里我郑重推荐此书
<<这就是搜索引擎:核心技术详解>>
定 价:¥45.00
作 者:张俊林 著
出 版 社:电子工业出版社
出版时间:2012-1-1
http://product.dangdang.com/product.aspx?product_id=22574992
好了广告 做完了..我先介绍一些索引压缩算法..
一.为什么压缩索引
海量的网页保存.需要消耗大量的磁盘空间.同事在索引读取的时候增加的磁盘的io.影响了性能所以压缩.
二.压缩的标准指标
1.压缩率 2.压缩速度 3.解压速度
三现在下面介绍第一种压缩算法.
EliasGamma算法
EG压缩算法利用分解函数将待压缩的数字分解为两个因子.之后分别用医院编码和二进制编码来表达这两个因子.
Elias Gamma 分解式如下 X = 2e + d (是2的e次方 .但是打不出来)
这里x为待解压的数字.e和d分别为其因子.对于因子 e+1采用一元编码表示.对于d用宽度为e的二进制编码来表示
1 楼 cjf068 2012-02-08 哈哈,运气这么嗨呢,我还打算买一本搜索方面的书 2 楼 ansjsun 2012-02-08 cjf068 写道哈哈,运气这么嗨呢,我还打算买一本搜索方面的书
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了 3 楼 cjf068 2012-02-08
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了ansjsun 写道cjf068 写道哈哈,运气这么嗨呢,我还打算买一本搜索方面的书
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了
哈哈 ,看来我得去入手一本,近期准备入门一下垂直搜索 4 楼 ansjsun 2012-02-08 cjf068 写道
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了ansjsun 写道cjf068 写道哈哈,运气这么嗨呢,我还打算买一本搜索方面的书
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了
哈哈 ,看来我得去入手一本,近期准备入门一下垂直搜索
这本书也有将爬虫..但是比较深入...用到pagereng 等...
对了你感觉垂直搜索..和普通搜索有啥区别啊..我的理解比较浅显..就是别采集到站外就可以了...说白了就是采集指定的网址..还有一点就是..支持定制抽取吧 5 楼 cjf068 2012-02-08 我觉得垂直搜索关键就是专业,提取的信息专注于某一类业务,只是针对某个特定领域的专门搜索 6 楼 ansjsun 2012-02-08 解比较浅显..就cjf068 写道我觉得垂直搜索关键就是专业,提取的信息专注于某一类业务,只是针对某个特定领域的专门搜索
受教了..专门的字典..术语库...专门的检索...我也感兴趣..正在试着写个索引程序等我写完了试试哈 7 楼 lsycxyj 2012-04-05 博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢! 8 楼 ansjsun 2012-04-05 s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
我理解的是比如e 那么就是2的e次方 如果是9 e=3 那么3个bit可以表示..内存中是001 9 楼 ansjsun 2012-04-05 EliasGammaansjsun 写道s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
我理解的是比如e 那么就是2的e次方 如果是9 e=3 那么3个bit可以表示..内存中是001
写错了 9应该是0001001
两倍的e为字节的宽度.d为后续的字
解码就是2前面3个0代表3次方 , 后面为001 则为1 即是9 10 楼 lsycxyj 2012-04-05 ansjsun 写道EliasGammaansjsun 写道s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
我理解的是比如e 那么就是2的e次方 如果是9 e=3 那么3个bit可以表示..内存中是001
写错了 9应该是0001001
两倍的e为字节的宽度.d为后续的字
解码就是2前面3个0代表3次方 , 后面为001 则为1 即是9
9的Gamma是1110:001,Delta是110:00:001,如果把分隔符“:”也算一位的话,明显占用空间比9要大,为什么还能称为“压缩”?还是大位宽的情况下才算是“压缩”? 11 楼 ansjsun 2012-04-06 lsycxyj 写道ansjsun 写道EliasGammaansjsun 写道s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
我理解的是比如e 那么就是2的e次方 如果是9 e=3 那么3个bit可以表示..内存中是001
写错了 9应该是0001001
两倍的e为字节的宽度.d为后续的字
解码就是2前面3个0代表3次方 , 后面为001 则为1 即是9
9的Gamma是1110:001,Delta是110:00:001,如果把分隔符“:”也算一位的话,明显占用空间比9要大,为什么还能称为“压缩”?还是大位宽的情况下才算是“压缩”?
9是一个int..int是32位...小于32就算压缩吧..