概述

随着大数据时代的来临，爬虫的需求自然是愈发增多。然而，因为爬虫开发者搞崩别人服务器或盗窃隐私数据，而抓进 "笼子" 的案例也是屡见不鲜。于是，受所阅之文启发，故作此篇，以此警醒自身如何规避风险。

大体注意

编写和配置爬虫程序时，需注意的关键问题是爬取的内容和爬取的间隔时间。

况且，scrapy这样经典的爬虫框架中，会有ROBOTSTXT_OBEY选项，若设为真，则会遵守目标网站制定的规则。具体如下所述：

爬虫内容需要获得目标网站许可，如开源数据页面。然而，涉及利益之时，侥幸之心总是难以抹去。

如2016年，微博与脉脉的官司中，后者被判停止不正当竞争行为，赔偿经济损失200万元及合理费用20余万元等。纠纷产生的原因：脉脉在与微博合作之时，从相关API获取到了大量非脉脉用户的微博头像、名称、职业、教育等个人信息。

2018年12月就有抓取视频数据被告发的案例。

虽然缩短爬取间隔可以显著提升爬取速度，但是你整的跟DDOS攻击一样耗尽别人带宽，甚至整崩服务器，这样就很过分了。

在国家互联网信息办公室关于《数据安全管理办法（征求意见稿）》公开征求意见的通知中，已有相关规定：

就我个人而言，目前更多的是以开源数据集来训练模型，通常都是填写邮箱等信息便可下载。

若之后遇到类似情景，需三思而后行。