新西兰天维网社区

 找回密码
登录  注册
搜索
热搜: 移民 留学
查看: 396|回复: 3
打印 上一主题 下一主题

[工作] 如何防止 Web-scraping expert grabbing website [复制链接]

Rank: 17Rank: 17Rank: 17Rank: 17Rank: 17

升级  50.7%

UID
10039329
热情
20244
人气
22074
主题
304
帖子
17354
精华
1
积分
30139
阅读权限
30
注册时间
2016-10-21

新时政 元老勋章 10周年纪念 2019-2020年度金ID 2018年度金ID

跳转到指定楼层
楼主
发表于 2017-3-9 09:33:28 |只看该作者 |倒序浏览 微信分享
我工作的网站被人在freelancer上招标要求grabbing website,招标预算价格是30美元,因为那出钱的人是印度人,我估计很穷啦
我想问如何防止啊?
我的老板很焦急,问我如何解决?我的老板很焦急,那我也变成很焦急啦

使用道具 举报

Rank: 17Rank: 17Rank: 17Rank: 17Rank: 17

升级  33.68%

UID
10032244
热情
24139
人气
25429
主题
36
帖子
3781
精华
0
积分
26735
阅读权限
30
注册时间
2016-6-28
沙发
发表于 2017-3-9 22:27:34 |只看该作者 微信分享
你的网站是文字类,还是图片类,还是图文混排的?理论上来说,别管哪种类型,100%的防止抓取是无解的。现在除了一些简单的spider,还有非常方便的headless browser比如phantomjs,cookie,referrer,cors,全部没有任何压力,可以模拟任何浏览器行为,甚至支持chrome extension。只要你的脚本人性化一些,各种anti-spam 策略都是无力的。之前JD破获的一个大案,有一个境内工作室,绕过了各种反扒机制来模拟用户操作刷单,年订单流水超过0.1b,如果不是朝阳大妈举报,至今仍逍遥法外呢。

不过,你可以增加他获取到内容的难度,也就是增加工作量来击退这伙强盗。比如文字中混杂一些虽然看不到,但是在html code中存在的乱码,部分内容采用前端加密的方式,先输出到前端密文,然后解密在前端做,对应的代码也也要compress。图片类直接增加请求频率的限制,超过一定的频率就302到一个页面,或者直接ban掉这个ip一段时间。这样,阿三可能就要多出一些钱和时间才能完成工作。。。

使用道具 举报

Rank: 17Rank: 17Rank: 17Rank: 17Rank: 17

升级  50.7%

UID
10039329
热情
20244
人气
22074
主题
304
帖子
17354
精华
1
积分
30139
阅读权限
30
注册时间
2016-10-21

新时政 元老勋章 10周年纪念 2019-2020年度金ID 2018年度金ID

板凳
发表于 2017-3-10 08:04:21 |只看该作者 微信分享
catalsdevelop 发表于 2017-3-9 21:27
你的网站是文字类,还是图片类,还是图文混排的?理论上来说,别管哪种类型,100%的防止抓取是无解的。现在 ...

谢谢,你说的这些方法都做了

使用道具 举报

Rank: 17Rank: 17Rank: 17Rank: 17Rank: 17

升级  50.7%

UID
10039329
热情
20244
人气
22074
主题
304
帖子
17354
精华
1
积分
30139
阅读权限
30
注册时间
2016-10-21

新时政 元老勋章 10周年纪念 2019-2020年度金ID 2018年度金ID

地板
发表于 2017-3-10 08:19:19 |只看该作者 微信分享
另外我的http request to server参数也加密了

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

手机版| 联系论坛客服| 广告服务| 招贤纳士| 新西兰天维网

GMT+13, 2024-11-16 06:14 , Processed in 0.017193 second(s), 14 queries .

Powered by Discuz! X2 Licensed

Copyright 2001- Sky Media Limited, All Rights Reserved.

回顶部