零基础写python爬虫之使用Scrapy框架编写爬虫(6)

时间:2014-11-08 02:36来源:网络整理作者:网络点击: 次

分享到：

4.存储内容（Pipeline）保存信息的最简单的方法是通过Feed exports，主要有四种：JSON，JSON lines，CSV，XML。我们将结果用最常用的JSON导出，命令如下：复制

4.存储内容（Pipeline）
保存信息的最简单的方法是通过Feed exports，主要有四种：JSON，JSON lines，CSV，XML。
我们将结果用最常用的JSON导出，命令如下：

复制代码代码如下:

scrapy crawl dmoz -o items.json -t json

-o 后面是导出文件名，-t 后面是导出类型。
然后来看一下导出的结果，用文本编辑器打开json文件即可（为了方便显示，在item中删去了除了title之外的属性）：

因为这个只是一个小型的例子，所以这样简单的处理就可以了。
如果你想用抓取的items做更复杂的事情，你可以写一个 Item Pipeline(条目管道)。
这个我们以后再慢慢玩^_^

以上便是python爬虫框架Scrapy制作爬虫抓取网站内容的全部过程了，非常的详尽吧，希望能够对大家有所帮助，有需要的话也可以和我联系，一起进步

收藏文章

表情删除后不可恢复，是否删除

取消

确定

图片正在上传，请稍后...

取消上传

评论内容为空！

还没有评论，快来抢沙发吧！

热评话题

按钮内容不能为空！

立刻说两句吧！查看0条评论

精彩图集

精彩文章

热点文章

热门标签