找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 4185|回复: 1

[已回复] pyspider如何清空之前的结果再重新执行爬虫任务呢?

1

主题

1

帖子

1

积分

贫民

积分
1
angolee 发表于 2016-10-27 10:23:56 | 显示全部楼层 |阅读模式
用 PySpider 练习了一下以前的爬虫程序,并修改了里面不少的爬取规则。

再次 Run 的时候,发现程序并没有重新进行爬取,爬取的规则依然是之前的程序的。

请问该如何清空原有的 result,并能再次执行新的爬虫任务呢?

另外,有一个 CSS 选择器的问题想请教大家的:

<li><span class="label">房屋用途</span>普通住宅</li>
使用 PySpider 定位到 <li> 的时候,结果会变成「房屋用途 普通住宅」,

请问如何只定位到后面那部分,即「普通住宅」呢?

同样,下面的又是如何只获取「26667」,而不是「26667 元/平米」呢?

<div class="unitPrice">    <span class="unitPriceValue">26667<i>元/平米</i></span></div>


回复

使用道具 举报

50

主题

1057

帖子

1108

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1108

活跃会员热心会员最佳导师默默耕耘突出贡献优秀版主荣誉管理论坛元老

blueelwang 发表于 2016-10-27 22:10:22 | 显示全部楼层
问题1: 在on_start的时候清空一下库数据
问题2: 这种问题一般的处理方式是, 做一个字符串替换, 把不需要的文字替换成空串
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表