读书人

海内首套免费的《Nutch相关框架视频教

发布时间: 2013-04-05 10:24:33 作者: rapoo

国内首套免费的《Nutch相关框架视频教程》(1-12)
??? Nutch是一个Java开源项目,拥有近十年的历史,从一开始的搜索引擎演变为如今的网络爬虫。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大数据和云计算的代名词。??? 本人拥有多年Nutch相关框架研发经验,顺应大数据云计算的浪潮,推出了国内首套免费的《Nutch相关框架视频教程》。??优酷在线视频地址?土豆在线视频地址?百度云网盘地址(1-12原版超清)?115网盘礼包(1-12压缩超清)?360云盘地址(1-12压缩超清)?金山快盘地址(1-12压缩超清)??

第一讲

土豆在线视频地址(52分钟)
超清原版下载地址??

压缩高清下载地址

1、????通过nutch,诞生了hadoop、tika、gora。

2、????nutch通过ivy来进行依赖管理(1.2之后)。

3、????nutch是使用svn进行源代码管理的。

4、????lucene、nutch、hadoop,在搜索界相当有名。

5、????ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。

6、????nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。

7、????nutch入门重点在于分析nutch脚本文件。


第二讲
土豆在线视频地址?(52分钟)
超清原版下载地址?

压缩高清下载地址

1、? git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。

2、? nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。

3、? 定制开发nutch的入门方法是研读build.xml文件。

4、? 命令:

apt-get install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cd release-1.6

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/url.txt 并输入http://blog.tianya.cn

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

vi release-1.6/conf/nutch-site.xml 增加http.agent.name配置

cd ../../release-1.6

ant

cd runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

删除报错的文件夹

nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &
?
?

第三讲
土豆在线视频地址(53分钟)
超清原版下载地址

压缩高清下载地址

1、????nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?

2、????命令:

crawldb

bin/nutch | grep read

bin/nutch ?readdb ?data/crawldb ?-stats

bin/nutch ?readdb ?data/crawldb ?-dump ?data/crawldb/crawldb_dump

bin/nutch ?readdb ?data/crawldb ?-url ?http://4008209999.tianyaclub.com/

bin/nutch ?readdb ?data/crawldb ?-topN ?10?data/crawldb/crawldb_topN

bin/nutch readdb data/crawldb ?-topN 10 ?data/crawldb/crawldb_topN_m 1

segments

crawl_generate

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata ?noparsetext

crawl_fetch

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump-nocontent -nogenerate -noparse -noparsedata ?noparsetext

content

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch?-nogenerate -noparse -noparsedata ?noparsetext

crawl_parse

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch?-nogenerate -nocontent noparsedata ?noparsetext

parse_data

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch?-nogenerate -nocontent -noparse ?noparsetext

parse_text

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch?-nogenerate -nocontent -noparse ?-noparsedata

全部:

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump

segments

bin/nutch readseg -list -dir data/segments

bin/nutch readseg -list data/segments/20130325043023

bin/nutch readseg -get?data/segments/20130325042858 http://blog.tianya.cn/

linkdb

bin/nutch readlinkdb data/linkdb -url http://4008209999.tianyaclub.com/

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
?

?

第四讲

土豆在线视频地址(60分钟)?
超清原版下载地址?
压缩高清下载地址?

1、? 深入分析nutch的抓取周期

inject

generate -> fetch -> parse ->updatedb

2、? 3大merge和3大read命令阐释

bin/nutch ?| ?grep merge

bin/nutch ?| ?grep read

bin/nutch ?mergesegs ?data/segments_all ?-dir?data/segments

3、? 反转链接

bin/nutch ?invertlinks ?data/linkdb ?-dir ?data/segments

4、? 解析页面

bin/nutch ?parsechecker ?http://apdplat.org

?

第五讲

土豆在线视频地址(66分钟)

超清原版下载地址
压缩高清下载地址?

1、? 域统计

bin/nutch ?domainstats ?data2/crawldb/current ?host ?host

bin/nutch ?domainstats?data2/crawldb/current ?domain domain

bin/nutch ?domainstats?data2/crawldb/current ?suffix suffix

bin/nutch ?domainstats?data2/crawldb/current ?tld ?tld

2、webgraph

bin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb

有相同inlinks的URL,只输出topn条

bin/nutch nodedumper -inlinks -output ?inlinks -topn 1 -webgraphdb data2/webgraphdb

有相同outlinks的URL,只输出topn条

bin/nutch nodedumper -outlinks? -output ?outlinks -topn 1 -webgraphdb data2/webgraphdb

有相同scores的URL,只输出topn条(初始分值全为0)

bin/nutch nodedumper -scores? -output scores -topn 1 -webgraphdbdata2/webgraphdb

计算URL分值

bin/nutch ?linkrank? -webgraphdb ?data2/webgraphdb

再次查看分值

bin/nutch nodedumper -scores? -output scores topn 1 -webgraphdbdata2/webgraphdb

对结果进行分组,取最大值或是连加和(topn参数不参与)

bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum ?-webgraphdbdata2/webgraphdb

?

?

bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max ?-webgraphdbdata2/webgraphdb
对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。

?

第六讲

土豆在线视频地址(46分钟)

超清原版下载地址
压缩高清下载地址?

1、注入分值

bin/nutch? readdb? data2/crawldb? -dump? crawldb_dump
cat? crawldb_dump/*? |? grep? Score? |? sort? |? uniq
bin/nutch? scoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb

2、轻量级抓取

bin/nutch? freegen? urls? data3/segments

?

第七讲
土豆在线视频地址(58分钟)
超清原版下载地址
压缩高清下载地址?

1、indexchecker

bin/nutch ?indexchecker ?http://www.163.com

2、安装配置SOLR

wget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgz

tar ?-xzvf ?apache-solr-3.6.2.tgz

cd ?apache-solr-3.6.2/example

复制nutch的conf目录中的schema.xml文件到solr/conf目录

修改solr/conf/solrconfig.xml,将里面所有的<strname="df">text</str>都替换为<strname="df">content</str>

3、运行SOLR并提交索引

启动SOLR服务器
?java -jar start.jar &

Web界面

?http://host2:8983

提交索引

bin/nutch solrindex http://host2:8983/solr data/crawldb-linkdb data/linkdb -dir data/segments

4、使用LUKE工具查看索引

5、给SOLR3.6.2配置分词器mmseg4j

wget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip

unzip mmseg4j-1.8.5.zip -d? mmseg4j-1.8.5

将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录
将schema.xml文件中所有的
??<tokenizerstyle="margin: 0cm 0cm 0pt; text-indent: 0cm;">第八讲
土豆在线视频地址(38分钟)
超清原版下载地址
压缩高清下载地址?

1、指定LUKE工具的分词器?

访问https://code.google.com/p/mmseg4j/downloads/list???

下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip?

将压缩包里面的dist文件夹里面的jar解压,将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面?

启动luke,在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer?

2、安装配置SOLR4.2

?wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz?

tar ?-xzvf ?solr-4.2.0.tgz?

cd ?solr-4.2.0/example?

复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件?

修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/>?

3、给SOLR4.2配置分词器mmseg4j?

wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip?

unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d? mmseg4j-1.9.1?

将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
将schema.xml文件中的
??<tokenizer mode="complex"/>?

4、运行SOLR并提交索引?

启动SOLR服务器
?java -jar start.jar &?

Web界面

?http://host2:8983?

提交索引?

bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments?

?

第九讲
土豆在线视频地址(44分钟)
超清原版下载地址?
压缩高清下载地址?

1、? 安装win上的nutch运行环境Cygwin

cygwin路径不要有空格

把安装好的JDK拷贝到用户主目录

把nutch的文件拷贝到用户主目录

下载解压ant,加入path

2、? 运行nutch

Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700

https://issues.apache.org/jira/browse/HADOOP-7682

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

修改hadoop-1.1.2\src\core\org\apache\hadoop\fs\FileUtil.java,搜索 Failed to set permissions of path,找到689行,把thrownew IOException改为LOG.warn

修改hadoop-1.1.2\build.xml,搜索autoreconf,移除匹配的6个executable="autoreconf"的exec配置

执行ant

用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替换nutch的hadoop-core-1.0.3.jar

?

?

第十讲
土豆在线视频地址(58分钟)
超清原版下载地址?
压缩高清下载地址?

1、HADOOP单机本地模式

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

export ?PATH=/home/ysc/hadoop-1.1.2/bin:$PATH

切换到nutch的deploy目录运行命令

2、HADOOP单机伪分布式模式

新建用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

注销root以hadoop用户登录

配置SSH

ssh-keygen -t rsa(密码为空,路径默认)

cp .ssh/id_rsa.pub .ssh/authorized_keys

准备HADOOP运行环境

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

在/home/hadoop/.bashrc 中追加:

export ?PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

重新登录就生效

ssh localhost

which hadoop

配置HADOOP运行参数

vi conf/core-site.xml

?

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/tmp</value>

</property>

?

vi conf/hdfs-site.xml

?

<property>

?<name>dfs.name.dir</name>

?<value>/home/hadoop/dfs/filesystem/name</value>

</property>

<property>

?<name>dfs.data.dir</name>

?<value>/home/hadoop/dfs/filesystem/data</value>

</property>

<property>

? <name>dfs.replication</name>

?<value>1</value>

</property>

?

vi conf/mapred-site.xml

???????????????????

<property>

?<name>mapred.job.tracker</name>

?<value>localhost:9001</value>

</property>

<property>

?<name>mapred.tasktracker.map.tasks.maximum</name>

?<value>4</value>

</property>

<property>

?<name>mapred.tasktracker.reduce.tasks.maximum</name>

?<value>4</value>

</property>

<property>

?<name>mapred.system.dir</name>

?<value>/home/hadoop/mapreduce/system</value>

</property>

<property>

?<name>mapred.local.dir</name>

?<value>/home/hadoop/mapreduce/local</value>

</property>

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看 TaskTracker 的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

3、执行Nutch的crawl命令

?

?

?

?

第十一讲
土豆在线视频地址(64分钟)
超清原版下载地址
压缩高清下载地址?

1、配置Cygwin支持无密码SSH登陆

安装SSH

默认的Cygwin没有安装ssh,所以重新运行http://www.cygwin.com/setup.exe

在Select Packages的时候,在search输入ssh,选择openssh:The OpenSSH server and client programs

配置SSH服务(以管理员身份运行cygwin)

ssh-host-config

Should privilege separation be used?? ?yes

Do you want to install sshd as a service?? yes

默认确认

Do you want to use a different name? ?no

Create new privileged user account 'cyg_server'? ?yes

输入密码

cygrunsrv ?-S ?sshd

如果需要重新安装sshd服务,可以用cygrunsrv -R sshd

生成SSH Key

ssh-keygen ?-t ?rsa(密码为空,路径默认)

cp ?.ssh/id_rsa.pub ?.ssh/authorized_keys

登陆

ssh ?localhost

2、win上的HADOOP单机伪分布式

准备HADOOP运行环境

下载解压并拷贝到Cygwin的用户主目录

http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz

1.x版本有BUG,参考:

https://issues.apache.org/jira/browse/HADOOP-7682
https://issues.apache.org/jira/browse/HADOOP-8274

BUG修复请参考:

http://en.wikisource.org/wiki/User:Fkorning/Code/Hadoop-on-Cygwin

?

在/home/ysc/.bashrc 中追加:

export ?JAVA_HOME=/home/ysc/jdk1.7.0_17

export ?PATH=/home/ysc/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH

在hadoop-0.20.2/conf/hadoop-evn.sh中追加

export ?JAVA_HOME=/home/ysc/jdk1.7.0_17

export ?HADOOP_LOG_DIR=/tmp/logs

创建符号链接

mklink ?/D ?C:\tmp ?C:\cygwin\tmp

重新登录就生效

ssh ?localhost

which ?hadoop

配置HADOOP运行参数

vi conf/core-site.xml

?

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

?

vi conf/hdfs-site.xml

?

<property>

? <name>dfs.replication</name>

?<value>1</value>

</property>

?

vi conf/mapred-site.xml

???????????????????

<property>

?<name>mapred.job.tracker</name>

?<value>localhost:9001</value>

</property>

<property>

?<name>mapred.tasktracker.map.tasks.maximum</name>

?<value>4</value>

</property>

<property>

?<name>mapred.tasktracker.reduce.tasks.maximum</name>

?<value>4</value>

</property>

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看 TaskTracker 的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

3、? 执行wordcount命令

hadoop ?jar ?hadoop-0.20.2-examples.jar ?wordcount ?input ?output

?

?

第十二讲

土豆在线视频地址(30分钟)
超清原版下载地址?
压缩高清下载地址?

1、? HADOOP多机完全分布式模式

三台机器

host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)

host6(DataNode、TaskTracker)

host8(DataNode、TaskTracker)

vi ?/etc/hostname(分别给每一台主机指定主机名)

vi ?/etc/hosts(分别给每一台主机指定主机名到IP地址的映射)

新建用户和组

三台机器上面都要新建用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

更改临时目录权限

chmod 777 /tmp

注销root以hadoop用户登录

配置SSH

在host2上面执行

ssh-keygen ?-t ?rsa(密码为空,路径默认)

该命令会在用户主目录下创建 .ssh 目录,并在其中创建两个文件:id_rsa 私钥文件,是基于 RSA 算法创建,该私钥文件要妥善保管,不要泄漏。id_rsa.pub 公钥文件,和 id_rsa 文件是一对儿,该文件作为公钥文件,可以公开

cp ?.ssh/id_rsa.pub ?.ssh/authorized_keys

把公钥追加到其他主机的authorized_keys 文件中

ssh-copy-id ?-i ?.ssh/id_rsa.pub ?hadoop@host6

ssh-copy-id ?-i ?.ssh/id_rsa.pub ?hadoop@host8

可以在host2上面通过ssh无密码登陆host6和host8

ssh host2

ssh host6

ssh host8

准备HADOOP运行环境

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

在/home/hadoop/.bashrc 中追加:

export ?PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

重新登录就生效

ssh ?localhost

which ?hadoop

配置HADOOP运行参数

vi conf/masters

?

把localhost替换为:host2

?

vi conf/slaves

?

删除localhost,加入两行:

host2

host6

host8

?

vi conf/core-site.xml

?

<property>

<name>fs.default.name</name>

<value>hdfs://host2:9000</value>

</property>

?

vi conf/hdfs-site.xml

?

<property>

?<name>dfs.name.dir</name>

?<value>/home/hadoop/dfs/filesystem/name</value>

</property>

<property>

?<name>dfs.data.dir</name>

?<value>/home/hadoop/dfs/filesystem/data</value>

</property>

<property>

?<name>dfs.replication</name>

? <value>3</value>

</property>

?

vi conf/mapred-site.xml

???????????????????

<property>

?<name>mapred.job.tracker</name>

? <value>host2:9001</value>

</property>

<property>

?<name>mapred.tasktracker.map.tasks.maximum</name>

?<value>4</value>

</property>

<property>

?<name>mapred.tasktracker.reduce.tasks.maximum</name>

?<value>4</value>

</property>

<property>

?<name>mapred.system.dir</name>

?<value>/home/hadoop/mapreduce/system</value>

</property>

<property>

? <name>mapred.local.dir</name>

?<value>/home/hadoop/mapreduce/local</value>

</property>

复制HADOOP文件到其他节点

?scp -r /home/hadoop/hadoop-1.1.2 ?hadoop@host6:/home/hadoop/hadoop-1.1.2
?scp -r /home/hadoop/hadoop-1.1.2 ?hadoop@host8:/home/hadoop/hadoop-1.1.2

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看 TaskTracker 的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

8 楼 满月无双 前天 坐等楼主发放 后面8-11集的下载地址。这个系列一共有多长,多长集? 9 楼 yangshangchuan 前天 满月无双 写道坐等楼主发放 后面8-11集的下载地址。这个系列一共有多长,多长集?
多少集还未定 10 楼 yiduwangkai 前天 强大,很好,很牛逼 11 楼 满月无双 前天 yangshangchuan 写道满月无双 写道坐等楼主发放 后面8-11集的下载地址。这个系列一共有多长,多长集?
多少集还未定
O(∩_∩)O哈! 希望越深入越好,学习了! 12 楼 满月无双 前天 奇怪,第8、9集的下载链接点击无反应。 13 楼 yangshangchuan 前天 满月无双 写道奇怪,第8、9集的下载链接点击无反应。
我刚确认了,可以下载的,你在试试。

读书人网 >互联网

热点推荐