在MOOC北京理工大学嵩天老师的公开课上有一个淘宝商品比价定向爬虫的实例,这个小的定向爬虫代码可以对淘宝网上一个搜索关键词进行检索,可以获取检索页面的某件产品的相关信息,比如价格、名称、销量等等。通过这些爬取获得的数据,我们可以简单的了解某件产品的销量如何,也可以为我们筛选产品提供一些小的支持。源代码如下:
|
|
由于淘宝现在对搜索进行了登录限制,所以目前这个实例已经没有办法对搜索关键词进行数据爬取了。现在必须使用header模拟浏览器和键入cookie或者使用更高级的技术才可以正常爬取。这里我使用了cookies去进行一些简单的爬取,并且对嵩老师的代码进行了一点简单的优化。主要增加了销量的数据,还有发货地的数据,并且根据销量重新进行排序,并且最后生成一个csv文件储存在本地。代码如下:
|
|
你将会大致得到如下所示的一个csv文件: