火车头:让内容页里相同结构的数据分条入库

有些内容页采集出来的数据是多条的,这种最具代表性的就是json格式的数据,比如:

{ "name": "中国", "province": [{ "name": "黑龙江", "cities": { "city": ["哈尔滨", "大庆"] } }, { "name": "广东", "cities": { "city": ["广州", "深圳", "珠海"] } }, { "name": "台湾", "cities": { "city": ["台北", "高雄"] } }, { "name": "新疆", "cities": { "city": ["乌鲁木齐"] } }]` }

采集这种数据下来要分条入库,在火车头软件里设置有核心三点:

一,先拿一组完成的数据设置好每个标签的内容提取规则。
二,每个标签的数据获取必须勾选:循环匹配
三,在软件左下方“循环设置”那里,设置为“添加为新纪录”,这是核心中的核心,如下图:

然后测试采集规则,一定要显示到如下格式,才算规则正常:

火车头官方也有说明:http://www.locoy.com/index/guide#JSON提取.html


火车头采集