爬虫中数据库选择的小问题
嗯,存储爬虫队列大家都用什么数据库呢?
Berkeley DB?
SQLite?
Fast DB?
只用过SQLite, 还不是用在爬虫上, 很多人推荐Berkeley DB. 现在想了解这个数据库和其他内存数据库相比有何优势呢?
或者是它哪些特性使其特别适合作为爬虫队列数据存储?
小弟不才望各位前辈说得稍微详细一点^_^......
[解决办法]
存储在内存中,行不?
[解决办法]
对于我自己的小应用,一般都是SQlite
[解决办法]
看你爬虫有多高级了, 就一个广度优先搜索的话, 在文件内存映射里做环形队列就行了.
如果是想高效率的并发爬, 消息队列是最佳建议, RabbitMQ,ActiveQ,RabbitMQ,都很适合爬虫的工作原理。
消息队列支持多用户订阅,支持正则等过滤与派发策略,你想想都觉得好用。