爬虫写的溜,牢饭管个够

  • 小编 发布于 2019-12-09 07:57:46
  • 栏目:科技
  • 来源:chenfengshf
  • 8568 人围观

概述

随着大数据时代的来临,爬虫的需求自然是愈发增多。然而,因为爬虫开发者搞崩别人服务器或盗窃隐私数据,而抓进 "笼子" 的案例也是屡见不鲜。于是,受所阅之文启发,故作此篇,以此警醒自身如何规避风险。

大体注意

编写和配置爬虫程序时,需注意的关键问题是爬取的内容和爬取的间隔时间。

况且,scrapy这样经典的爬虫框架中,会有ROBOTSTXT_OBEY选项,若设为真,则会遵守目标网站制定的规则。具体如下所述:


爬虫写的溜,牢饭管个够

内容细则

爬虫内容需要获得目标网站许可,如开源数据页面。然而,涉及利益之时,侥幸之心总是难以抹去。

  1. 避免抓取未经授权的用户信息。

如2016年,微博与脉脉的官司中,后者被判停止不正当竞争行为,赔偿经济损失200万元及合理费用20余万元等。 纠纷产生的原因: 脉脉在与微博合作之时,从相关API获取到了大量非脉脉用户的微博头像、名称、职业、教育等个人信息。

  1. 谨防对方公司已禁止爬取的内容。如淘宝网的任何内容。
爬虫写的溜,牢饭管个够

  1. 不要爬取大量带有知识产权的数据来谋利。

2018年12月就有抓取视频数据被告发的案例。

爬虫写的溜,牢饭管个够

  1. 当然需要注意的内容远不止这点儿,更多的则要自己留意了。


爬取间隔时间

虽然缩短爬取间隔可以显著提升爬取速度, 但是你整的跟DDOS攻击一样耗尽别人带宽,甚至整崩服务器,这样就很过分了。

在国家互联网信息办公室关于《数据安全管理办法(征求意见稿)》公开征求意见的通知中,已有相关规定:



爬虫写的溜,牢饭管个够

总结

就我个人而言,目前更多的是以开源数据集来训练模型,通常都是填写邮箱等信息便可下载。

若之后遇到类似情景,需三思而后行。

转载请说明出处:866热点网 ©