“爬虫大战！看邦盛科技怎么反爬抓“虫”？”-国土报中文版

本篇文章1523字，读完约4分钟

如果把网看成一个大蜘蛛网，百度和谷歌(不是日常的黑色哦)就是上面的大“蜘蛛”，这个“蜘蛛”一刻不停地在网上寻找“食物”(网上各种新闻)，储存在“冰箱”里。客户在百度搜索车票后，百度马上提供“冰箱”购票网站，愉快地购票。

发生了问题。爬虫这么优秀，为什么还要反爬虫呢？

时间很快就过去了，有一天我要去旅行，所以在百度上找到了那个购票网站，但是那个时候网站变成了特别的卡，好久都买不到票，生气得想砸键盘。

问题还有，这和网络爬虫有什么关系？

爬虫程序，别名，蜘蛛程序。虽然是以多足动物命名的，但是它起源于各大搜索引擎，也就是按照一定的规则，自动捕捉互联网新闻的程序和脚本。随着时间的推移，这种类型被用于各大互联网金融、EC平台、社会交流互联网等。借助网络爬虫，售票黄牛可以在几分钟内抢占所有热门线路的车票，大量抢占将导致网站挂牌。据业内人士估计，超过80%的低价机票被票务企业的爬虫抢走。越是关系到个人利益的地方，越是被爬虫复盖，包括政务、电商、银行、ota、社会交流、招聘、旅游等网站。

在这里，我们对网络爬虫有了比较形象的认识。根据用途的不同，网络爬虫分为两类。一个是百度、谷歌等善意爬行动物。另一种是恶意爬行动物，如黄牛软件。在实践中，恶意爬虫的首要目标是有价值的互联网数据。

早期爬行动物的手续很简单，快速拿走想要的复印件，没有伪装。反爬虫系统如果能抓住频繁来访的行为，就能找到爬虫并采取拦截手段。随着数据的价值越来越凸显，爬虫很快就不再是“君子”，一点点的企业利用爬虫技术攀登有价值的数据，弥补自己先天性数据的短板，成为提高自己评价值的“捷径”。

为了反爬虫的拦截，爬虫采用了代理ip池，降低了访问频率，伪装了普通浏览器头部的新闻，更高级的爬虫使用自动化工具驱动了浏览器，模仿了普通人的访问行为，用机器学习的方式解读了图像验证代码。这些爬行动物技术变得难以识别和拦截，常规的反爬行动物手段无法有效阻止访问，受商业优势的驱动，与爬行动物的反正激烈对抗。

为了保障互联网服务的正常运行，保护数据安全，反爬虫系统需要采用一系列新的技术手段来提高识别率。近年来，邦盛科技通过多维、多层次的检测，辅以后端大数据观察技术，认识到网络爬虫兴起并成为主流。

如何提高精度？

邦盛科技安全专家认为，可以从客户端和服务端融合实现。客户端安全是指在浏览器、app上操作时，在设备上进行环境的检测，检测对方是否使用了自动化爬虫工具。然后，人机识别技术根据操作行为来判别机器人的点击和自动点击。不仅环境安全，客户的行为也必须合理。例如，实际的顾客购票流程不是直接购票，而是有浏览轨迹和页面跳转，如果没有这些动作，就会被视为高风险的顾客。

在服务端，根据网站所有流量的大数据分析和智能决定，比较一个ip或设备，访问中间的点击、访问轨迹、网站时的静态资源(图像、css ) 普通客户必须执行这些操作，但不直接在消息模拟中执行。

如何建立智能分辨率决策平台？

邦盛科技安全专家表示，决策过程依赖对相关行业业务场景的了解，根据本地化流量，结合比较的专家规则，通过机器学习不断优化规则，提供树模型、神经网络模型但是，为了不误伤实际顾客，除了封闭控制手段以外，还可以考虑动态验证、限速、限流、延迟到达等各种玩法。

爬行动物趋利，而爬行动物认为好的地方，往往是我们难以提及的隐痛。目前，邦盛科技自动化攻击实时防御产品应用行业覆盖公积金、社会保险、工商信用、电子口岸、房地产、教育、交通、市场监管等领域，在应用中迅速有效地控制网络爬虫的疯狂行为，减轻服务器压力，成为系统日在此次疫情时期，更有效地保障了浙江大学在线教育平台的稳定运行。

来源：国土报中文版

标题：“爬虫大战！看邦盛科技怎么反爬抓“虫”？”

地址：http://www.g3gw.com/new/30783.html