概述
随着大数据时代的来临,爬虫的需求自然是愈发增多。然而,因为爬虫开发者搞崩别人服务器或盗窃隐私数据,而抓进 "笼子" 的案例也是屡见不鲜。于是,受所阅之文启发,故作此篇,以此警醒自身如何规避风险。
大体注意
编写和配置爬虫程序时,需注意的关键问题是爬取的内容和爬取的间隔时间。
况且,scrapy这样经典的爬虫框架中,会有ROBOTSTXT_OBEY选项,若设为真,则会遵守目标网站制定的规则。具体如下所述:
内容细则
爬虫内容需要获得目标网站许可,如开源数据页面。然而,涉及利益之时,侥幸之心总是难以抹去。
- 避免抓取未经授权的用户信息。
如2016年,微博与脉脉的官司中,后者被判停止不正当竞争行为,赔偿经济损失200万元及合理费用20余万元等。 纠纷产生的原因: 脉脉在与微博合作之时,从相关API获取到了大量非脉脉用户的微博头像、名称、职业、教育等个人信息。
- 谨防对方公司已禁止爬取的内容。如淘宝网的任何内容。
- 不要爬取大量带有知识产权的数据来谋利。
2018年12月就有抓取视频数据被告发的案例。
- 当然需要注意的内容远不止这点儿,更多的则要自己留意了。
爬取间隔时间
虽然缩短爬取间隔可以显著提升爬取速度, 但是你整的跟DDOS攻击一样耗尽别人带宽,甚至整崩服务器,这样就很过分了。
在国家互联网信息办公室关于《数据安全管理办法(征求意见稿)》公开征求意见的通知中,已有相关规定:
总结
就我个人而言,目前更多的是以开源数据集来训练模型,通常都是填写邮箱等信息便可下载。
若之后遇到类似情景,需三思而后行。