查看: 438|回复: 3

[工作] 如何防止 Web-scraping expert grabbing website [复制链接]

DDD888

=白金会员=

Rank: 17

升级 50.8%

UID: 10039329
热情: 20264
人气: 22094
主题: 304
帖子: 17354
精华: 1
积分: 30159
阅读权限: 30
注册时间: 2016-10-21

电梯直达

楼主

发表于 2017-3-9 08:33:28 |只看该作者 |正序浏览 微信分享

我工作的网站被人在freelancer上招标要求grabbing website，招标预算价格是30美元，因为那出钱的人是印度人，我估计很穷啦
我想问如何防止啊？
我的老板很焦急，问我如何解决？我的老板很焦急，那我也变成很焦急啦

分享0 收藏0

使用道具举报

DDD888

=白金会员=

Rank: 17

升级 50.8%

UID: 10039329
热情: 20264
人气: 22094
主题: 304
帖子: 17354
精华: 1
积分: 30159
阅读权限: 30
注册时间: 2016-10-21

地板

发表于 2017-3-10 07:19:19 |只看该作者 微信分享

另外我的http request to server参数也加密了

使用道具举报

DDD888

=白金会员=

Rank: 17

升级 50.8%

UID: 10039329
热情: 20264
人气: 22094
主题: 304
帖子: 17354
精华: 1
积分: 30159
阅读权限: 30
注册时间: 2016-10-21

板凳

发表于 2017-3-10 07:04:21 |只看该作者 微信分享

catalsdevelop 发表于 2017-3-9 21:27
你的网站是文字类，还是图片类，还是图文混排的？理论上来说，别管哪种类型，100%的防止抓取是无解的。现在 ...

谢谢，你说的这些方法都做了

使用道具举报

catalsdevelop

=白金会员=

Rank: 17

升级 54.63%

UID: 10032244
热情: 28296
人气: 29586
主题: 36
帖子: 3841
精华: 0
积分: 30925
阅读权限: 30
注册时间: 2016-6-28

沙发

发表于 2017-3-9 21:27:34 |只看该作者 微信分享

你的网站是文字类，还是图片类，还是图文混排的？理论上来说，别管哪种类型，100%的防止抓取是无解的。现在除了一些简单的spider，还有非常方便的headless browser比如phantomjs，cookie,referrer,cors,全部没有任何压力，可以模拟任何浏览器行为，甚至支持chrome extension。只要你的脚本人性化一些，各种anti-spam 策略都是无力的。之前JD破获的一个大案，有一个境内工作室，绕过了各种反扒机制来模拟用户操作刷单，年订单流水超过0.1b，如果不是朝阳大妈举报，至今仍逍遥法外呢。

不过，你可以增加他获取到内容的难度，也就是增加工作量来击退这伙强盗。比如文字中混杂一些虽然看不到，但是在html code中存在的乱码，部分内容采用前端加密的方式，先输出到前端密文，然后解密在前端做，对应的代码也也要compress。图片类直接增加请求频率的限制，超过一定的频率就302到一个页面，或者直接ban掉这个ip一段时间。这样，阿三可能就要多出一些钱和时间才能完成工作。。。

使用道具举报

返回列表

帐号		自动登录	找回密码
密码			登录	注册

[工作] 如何防止 Web-scraping expert grabbing website [复制链接]

浏览过的版块

新时政

元老勋章

10周年纪念

2019-2020年度金ID

2018年度金ID