飞谷云

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
热搜: 活动 交友 discuz
查看: 1235|回复: 1

关于爬虫xpath的条件设置中有中文

[复制链接]

2

主题

3

帖子

26

积分

新手上路

Rank: 1

积分
26
发表于 2016-2-22 13:01:40 | 显示全部楼层 |阅读模式
老师好:
       我在爬虫时要爬取例如“指导价”时遇到问题,要设置text()
QQ图片20160222125015.png
我要爬取15.89万,所以我设置条件让它去找li[div[text()='指导价:']],然后报错,我觉得应该是中文编码的问题,所以我将
中文转换成utf-8的传进去还是不行,还试了一下encode(‘utf-8’),都不行,希望哪位指点一下,测试代码如下图:
QQ截图20160222125734.png
回复

使用道具 举报

7

主题

21

帖子

69

积分

版主

Rank: 7Rank: 7Rank: 7

积分
69
发表于 2016-3-11 20:54:43 | 显示全部楼层
Nearzxh 同学你好:

1)汽车之家网站使用的是utf8编码,这个是没错的
2)用下面的代码试试看
a = '指导价'.encode(‘utf-8’)
name.xpath("li/div[text()=a]").extract()

3)如果还不行,我看了一下他的结构
111.png
对应的正好是
222.png
所以是一个 <li>的数组,每个下标对应item里的一个属性,
这样直接去取方便些。



回复 支持 反对

使用道具 举报

本版积分规则

QQ|Archiver|手机版|小黑屋|Feigu Cloud Inc. ( 沪ICP备12036109号

GMT+8, 2018-11-21 19:33 , Processed in 0.041297 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表