- UID
- 10032244
- 热情
- 24139
- 人气
- 25429
- 主题
- 36
- 帖子
- 3781
- 精华
- 0
- 积分
- 26735
- 分享
- 0
- 记录
- 0
- 相册
- 1
- 好友
- 2
- 日志
- 0
- 在线时间
- 4244 小时
- 注册时间
- 2016-6-28
- 阅读权限
- 30
- 最后登录
- 2024-11-15
升级 33.68% - UID
- 10032244
- 热情
- 24139
- 人气
- 25429
- 主题
- 36
- 帖子
- 3781
- 精华
- 0
- 积分
- 26735
- 阅读权限
- 30
- 注册时间
- 2016-6-28
|
你的网站是文字类,还是图片类,还是图文混排的?理论上来说,别管哪种类型,100%的防止抓取是无解的。现在除了一些简单的spider,还有非常方便的headless browser比如phantomjs,cookie,referrer,cors,全部没有任何压力,可以模拟任何浏览器行为,甚至支持chrome extension。只要你的脚本人性化一些,各种anti-spam 策略都是无力的。之前JD破获的一个大案,有一个境内工作室,绕过了各种反扒机制来模拟用户操作刷单,年订单流水超过0.1b,如果不是朝阳大妈举报,至今仍逍遥法外呢。
不过,你可以增加他获取到内容的难度,也就是增加工作量来击退这伙强盗。比如文字中混杂一些虽然看不到,但是在html code中存在的乱码,部分内容采用前端加密的方式,先输出到前端密文,然后解密在前端做,对应的代码也也要compress。图片类直接增加请求频率的限制,超过一定的频率就302到一个页面,或者直接ban掉这个ip一段时间。这样,阿三可能就要多出一些钱和时间才能完成工作。。。 |
|