飞谷云

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

搜索
热搜: 活动 交友 discuz
查看: 1768|回复: 4

爬虫如何分离出“厂商/车系/年款”等字段?

[复制链接]

7

主题

21

帖子

69

积分

版主

Rank: 7Rank: 7Rank: 7

积分
69
发表于 2016-3-29 12:05:51 | 显示全部楼层 |阅读模式
本帖最后由 刘老师 于 2016-3-29 12:11 编辑

腾飞  11:52:37
标红的 几个字段  很难确定
222.png
怎么找出规则分离这些字段

【老师回复】
在需求文档上,有一个部分解释了以上需求
①.  如何拆分标题
由于在Hive层需要对车辆的“品牌”等字段进行筛选,在item.py文件中有“品牌/厂商/车系/年款/排量/车型”6个字段,比如抓取内容是“
111.png
”则6个字段依次取值为
品牌=斯巴鲁
厂商=未知
车系=斯巴鲁XV
年款= 2012款
排量=2.0i
车型=豪华导航版
--------------------------------如果网页中的标题栏中凑不够上述5个字段,就填“未知”即可。




合计价格在每个车主报价表格中,如下图红框内容:
333.png
file:///C:\Users\dev1\Documents\Tencent Files\5371345\Image\C2C\E62A1F2D74EC7D15659EC56E0642513A.null

回复

使用道具 举报

0

主题

1

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2016-3-29 12:20:54 | 显示全部楼层
假设给了5个字段 但是不清楚 哪个字段应的  品牌,车系,年款,车型等

还有就是有的字段根本不能用空格区别开来, 比如奔驰车就不行, 无法对应!
回复 支持 反对

使用道具 举报

16

主题

18

帖子

448

积分

版主

Rank: 7Rank: 7Rank: 7

积分
448
发表于 2016-3-29 13:10:13 | 显示全部楼层
本帖最后由 北海若 于 2016-3-29 13:15 编辑

请参考下面的回复

回复 支持 反对

使用道具 举报

7

主题

21

帖子

69

积分

版主

Rank: 7Rank: 7Rank: 7

积分
69
 楼主| 发表于 2016-3-29 13:11:01 | 显示全部楼层
本帖最后由 刘老师 于 2016-3-29 14:19 编辑

1)如果给出的是5个字段,那就按照1,2,3,4,5的顺序,分别放入“品牌/车系/年款/排量/车型”5个字段, 厂商字段,保留为”未知“
2)如果不符合以上规则,比如没有用空格区分,就把所有内容都放入”品牌“这个字段,其他5个都放”未知“
3)如果中间有空格,但拆分后不足5个,比如只有”奔驰 S60“,就只放”品牌/车系“字段,如拆分后有3个,就依次放”品牌/车系/年款“,依次类推
4)如果拆分后有多于5个字段,就把后面多出的部分,都看成一个字段,放入“车型”属性中

”厂商“字段一直保留”未知“
如果同学感觉以上4种判断太繁琐,也可以把整个部分看成一个字符串,放入“品牌”字段中,简单处理。
回复 支持 反对

使用道具 举报

7

主题

21

帖子

69

积分

版主

Rank: 7Rank: 7Rank: 7

积分
69
 楼主| 发表于 2016-3-29 13:13:31 | 显示全部楼层
因为车辆类型细分这块,属于具体的业务范畴了,我们爬虫不用区分太多,有啥就抓啥。
爬虫的主要作用是保证数据一个不漏地拿到,至于如何从品牌找到对应的厂商,可以由ETL的数据转换过程来完成。

回复 支持 反对

使用道具 举报

本版积分规则

QQ|Archiver|手机版|小黑屋|Feigu Cloud Inc. ( 沪ICP备12036109号

GMT+8, 2018-11-21 19:33 , Processed in 0.039177 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表