新西兰天维网社区

标题: 如何防止 Web-scraping expert grabbing website [打印本页]

作者: DDD888    时间: 2017-3-9 08:33:28     标题: 如何防止 Web-scraping expert grabbing website

我工作的网站被人在freelancer上招标要求grabbing website,招标预算价格是30美元,因为那出钱的人是印度人,我估计很穷啦
我想问如何防止啊?
我的老板很焦急,问我如何解决?我的老板很焦急,那我也变成很焦急啦


作者: catalsdevelop    时间: 2017-3-9 21:27:34

你的网站是文字类,还是图片类,还是图文混排的?理论上来说,别管哪种类型,100%的防止抓取是无解的。现在除了一些简单的spider,还有非常方便的headless browser比如phantomjs,cookie,referrer,cors,全部没有任何压力,可以模拟任何浏览器行为,甚至支持chrome extension。只要你的脚本人性化一些,各种anti-spam 策略都是无力的。之前JD破获的一个大案,有一个境内工作室,绕过了各种反扒机制来模拟用户操作刷单,年订单流水超过0.1b,如果不是朝阳大妈举报,至今仍逍遥法外呢。

不过,你可以增加他获取到内容的难度,也就是增加工作量来击退这伙强盗。比如文字中混杂一些虽然看不到,但是在html code中存在的乱码,部分内容采用前端加密的方式,先输出到前端密文,然后解密在前端做,对应的代码也也要compress。图片类直接增加请求频率的限制,超过一定的频率就302到一个页面,或者直接ban掉这个ip一段时间。这样,阿三可能就要多出一些钱和时间才能完成工作。。。
作者: DDD888    时间: 2017-3-10 07:04:21

catalsdevelop 发表于 2017-3-9 21:27
你的网站是文字类,还是图片类,还是图文混排的?理论上来说,别管哪种类型,100%的防止抓取是无解的。现在 ...

谢谢,你说的这些方法都做了
作者: DDD888    时间: 2017-3-10 07:19:19

另外我的http request to server参数也加密了




欢迎光临 新西兰天维网社区 (http://bbs.skykiwi.com/) Powered by Discuz! X2