龙盟编程博客 | 无障碍搜索 | 云盘搜索神器
快速搜索
主页 > web编程 > python编程 >

零基础写python爬虫之使用Scrapy框架编写爬虫(6)

时间:2014-11-08 02:36来源:网络整理 作者:网络 点击:
分享到:
4.存储内容(Pipeline) 保存信息的最简单的方法是通过Feed exports,主要有四种:JSON,JSON lines,CSV,XML。 我们将结果用最常用的JSON导出,命令如下: 复制

4.存储内容(Pipeline)
保存信息的最简单的方法是通过Feed exports,主要有四种:JSON,JSON lines,CSV,XML。
我们将结果用最常用的JSON导出,命令如下:

复制代码 代码如下:

scrapy crawl dmoz -o items.json -t json 

-o 后面是导出文件名,-t 后面是导出类型。
然后来看一下导出的结果,用文本编辑器打开json文件即可(为了方便显示,在item中删去了除了title之外的属性):

因为这个只是一个小型的例子,所以这样简单的处理就可以了。
如果你想用抓取的items做更复杂的事情,你可以写一个 Item Pipeline(条目管道)。
这个我们以后再慢慢玩^_^

以上便是python爬虫框架Scrapy制作爬虫抓取网站内容的全部过程了,非常的详尽吧,希望能够对大家有所帮助,有需要的话也可以和我联系,一起进步

精彩图集

赞助商链接