新西兰天维网社区

标题: 如何防止 Web-scraping expert grabbing website [打印本页]

作者: DDD888 时间: 2017-3-9 08:33:28 标题: 如何防止 Web-scraping expert grabbing website

我工作的网站被人在freelancer上招标要求grabbing website，招标预算价格是30美元，因为那出钱的人是印度人，我估计很穷啦
我想问如何防止啊？
我的老板很焦急，问我如何解决？我的老板很焦急，那我也变成很焦急啦

作者: catalsdevelop 时间: 2017-3-9 21:27:34

你的网站是文字类，还是图片类，还是图文混排的？理论上来说，别管哪种类型，100%的防止抓取是无解的。现在除了一些简单的spider，还有非常方便的headless browser比如phantomjs，cookie,referrer,cors,全部没有任何压力，可以模拟任何浏览器行为，甚至支持chrome extension。只要你的脚本人性化一些，各种anti-spam 策略都是无力的。之前JD破获的一个大案，有一个境内工作室，绕过了各种反扒机制来模拟用户操作刷单，年订单流水超过0.1b，如果不是朝阳大妈举报，至今仍逍遥法外呢。

不过，你可以增加他获取到内容的难度，也就是增加工作量来击退这伙强盗。比如文字中混杂一些虽然看不到，但是在html code中存在的乱码，部分内容采用前端加密的方式，先输出到前端密文，然后解密在前端做，对应的代码也也要compress。图片类直接增加请求频率的限制，超过一定的频率就302到一个页面，或者直接ban掉这个ip一段时间。这样，阿三可能就要多出一些钱和时间才能完成工作。。。

作者: DDD888 时间: 2017-3-10 07:04:21

catalsdevelop 发表于 2017-3-9 21:27
你的网站是文字类，还是图片类，还是图文混排的？理论上来说，别管哪种类型，100%的防止抓取是无解的。现在 ...

谢谢，你说的这些方法都做了

作者: DDD888 时间: 2017-3-10 07:19:19

另外我的http request to server参数也加密了

欢迎光临新西兰天维网社区 (http://bbs.skykiwi.com/)