scrapy HtmlXpathSelector解决思路

scrapy HtmlXpathSelector
最近开始用scrapy 跑爬虫。

<a href="http://blog.sina.com.cn/u/a646ebd001019559" target="_blank">
一句广告词引发的官司 广药<span style="color:#C03">加多宝</span>
之争何时休
</a>
当我title = blog.select("./div/h2/a/text()").extract() 确实是能找到标题，但是标红了的<span>标签里面的加多宝3个字没有弄下来。要怎么做。单独在来一个 blog.select("./div/h2/a/span/text()").extract() ??? scrapy
[解决办法]
是的。
你的想法是正确的。
因为本身对于

&lt;a href="http://blog.sina.com.cn/u/a646ebd001019559" target="_blank"&gt;
    一句广告词引发的官司&nbsp;广药&lt;span style="color:#C03"&gt;加多宝&lt;/span&gt;
    之争何时休
&lt;/a&gt;

其text，只包含，除了各个子节点之外的，不带标签的，那些文本text，即：


    一句广告词引发的官司&nbsp;广药
    之争何时休

而很明显，此处的子节点，就一个span：

&lt;span style="color:#C03"&gt;加多宝&lt;/span&gt;

要获得其内容，也就是对应的，你所说的：

blog.select("./div/h2/a/span/text()").extract()

了。

而实际上这个概念，都是通用的。
即，用其他工具，比如
BeautifulSoup
去处理，也是同样的逻辑的。

scrapy HtmlXpathSelector解决思路

热点推荐