飞谷云

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
热搜: 活动 交友 discuz
查看: 1381|回复: 1

关于scrapy爬虫,回答同学的几个问题

[复制链接]

7

主题

21

帖子

69

积分

版主

Rank: 7Rank: 7Rank: 7

积分
69
发表于 2016-3-23 13:13:41 | 显示全部楼层 |阅读模式
一齿乐太m 2016/3/23 9:22:48
刘老师,我有几个问题想咨询你一下,耽误您一些时间,谢谢。

1.在爬虫视频里您说的slave04是MySQL的从服务器吗?为什么把Python scrapy安装在这上面呢,是为了方便储存所爬到的数据?      
回答slave04上安装的有mysql,但并不影响爬虫的运行。python语言本身是跨平台的,可以安装在windows或linux上,scrapy是采用python语言开发的,
所以也可以运行跨平台。但是,由于底层访问http的功能,依赖于OS本身的库函数,所以scrapy的安装方法,在windows或linux上是不同的。
python语言和mysql也是没有直接关系的,使用python可以去操作mysql, 这两个东西,可以不在同一台机器上,当然也可以都放在一台上。

2.做好爬虫后是做成shell脚本包装的程序然后利用contab定期执行,我理解的对吗?     
回答:是的,没错。因为既然是让爬虫来抓取,肯定是要做成自动任务的。执行爬虫命令,使用 “scrapy crawl project_name” ,这是一个命令行,
命令行可以直接运行在DOS或linux terminal上的,所以就可以配置成自动任务或crontab。
下图是配置爬虫自动运行的crontab 中的内容,
123.png
其中,红色的文件,代码如下:
  1. #!/bin/sh
  2. PATH=$PATH:/usr/local/bin
  3. export PATH

  4. echo "抓取job开始 >>>"
  5. date

  6. echo "WEBSITE---> liepin START"
  7. cd /home/feigu/scrapy_job/sites/liepin/link
  8. <font color="#ff0000">scrapy crawl link</font> >> /home/feigu/scrapy_job/job_scrapy.log
  9. cd /home/feigu/scrapy_job/sites/liepin/page
  10. <font color="#ff0000">scrapy crawl page</font> >> /home/feigu/scrapy_job/job_scrapy.log
  11. echo "WEBSITE---> liepin END"

  12. echo "WEBSITE---> jobtong START"
  13. cd /home/feigu/scrapy_job/sites/jobtong/link
  14. scrapy crawl link >> /home/feigu/scrapy_job/job_scrapy.log
  15. cd /home/feigu/scrapy_job/sites/jobtong/page
  16. scrapy crawl page >> /home/feigu/scrapy_job/job_scrapy.log
  17. echo "WEBSITE---> jobtong END"

  18. echo "WEBSITE---> chinahr START"
  19. cd /home/feigu/scrapy_job/sites/chinahr/link
  20. scrapy crawl link >> /home/feigu/scrapy_job/job_scrapy.log
  21. cd /home/feigu/scrapy_job/sites/chinahr/page
  22. scrapy crawl page >> /home/feigu/scrapy_job/job_scrapy.log
  23. echo "WEBSITE---> chinahr END"

  24. echo "WEBSITE---> zhaopin START"
  25. cd /home/feigu/scrapy_job/sites/zhaopin/link
  26. scrapy crawl link >> /home/feigu/scrapy_job/job_scrapy.log
  27. cd /home/feigu/scrapy_job/sites/zhaopin/page
  28. scrapy crawl page >> /home/feigu/scrapy_job/job_scrapy.log
  29. echo "WEBSITE---> zhaopin END"

  30. date
  31. echo "抓取job信息结束 >>>"
复制代码


3.您说的网站的CSS指的是网站框架还是代码呢?   
回答:scrapy中解析html中的内容,可以通过xpath方式或css识别方式两种,我说的网站CSS是指查看网页源代码后,在html里面看到的类似 <div class="mydiv" .....>中的mydiv,mydiv是css的名字


4.目前用Python做数据分析是不是主要利用scikit-learn模块的东西?
回答:python做数据分析,提供了很多用来做数据分析的专门的库或函数。具体的内容我没有做过调查。


以上。



回复

使用道具 举报

0

主题

1

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2016-3-23 14:18:22 | 显示全部楼层
讲解很详细,谢谢老师!
回复 支持 反对

使用道具 举报

本版积分规则

QQ|Archiver|手机版|小黑屋|Feigu Cloud Inc. ( 沪ICP备12036109号

GMT+8, 2018-11-21 19:49 , Processed in 0.038849 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表