一个hacker在某论坛上列出了一个数据包以供出售,声称其中包含 4.89 亿 Instagram 用户的记录。据悉,Instagram 每月活跃用户达20亿,这就意味着如果数据包为真实数据,该事件将影响四分之一的用户。

近5亿ins用户信息遭爬虫?极验反爬新思路_数据

ins用户爬虫数据

被爬取的用户信息包括但不限于用户名、姓名、电子邮件、简介、关注者和关注数量、位置、账户创建日期、账户类别(企业/个人)和用户ID等。如果以上数据属实,那么这些ins用户就有可能面临严重的安全威胁。

当前就存在大量利用Instagram爬虫技术进行客户获取的产业链。这些操作通常始于筛选与自家产品或服务定位相匹配的Instagram博主,因为他们的粉丝群体很可能对类似的产品或服务产生兴趣。随后,这些产业链会获取这些Instagram用户的WhatsApp账号,并通过非法的群发手段推送商品链接。更严重的是,一些不法分子甚至会精心策划针对这些用户的诈骗活动。

近5亿ins用户信息遭爬虫?极验反爬新思路_数据_02

网络爬虫“重灾区”与危害

除了社交平台用户信息被网络爬虫滥用导致恶意营销和安全风险以外,在数字化时代,爬虫技术逐渐被黑产滥用,许多行业也因此成为网络爬虫的重灾区。例如,票务行业、政府网站(政府网站爬虫流量可占全网站流量的44%~70%)和原创内容平台也因爬虫活动面临信息泄露和营收损失的问题。

以票务行业为例,包括但不限于演出门票、景区门票、飞机票和火车票等等。这些票的需求量大但供应量有限,总能吸引大批人争抢。黑产黄牛利用爬虫手段批量抢票,坐享中间差价,甚至加倍抬哄票价。据Imperva统计,2024航空行业网站爬虫流量达到48.9%

近5亿ins用户信息遭爬虫?极验反爬新思路_验证码_03

在航空行业,黑产操作的大致流程如下:

近5亿ins用户信息遭爬虫?极验反爬新思路_数据_04

这些行为不仅扰乱了市场秩序,还让真正消费者付出了更高的代价,损害了他们的权益。

不同的行业因其特点受到网络爬虫的影响各异,但爬虫带来的部分危害也有共通点。首先,大量爬虫流量会导致带宽占用剧增,直接提高企业的运营成本。其次,这种行为还会降低服务器速度,干扰正常用户的网速,最终影响用户的使用体验。

黑产怎么爬取信息?

我们可以看到,从获取公开的文本和图片到深入抓取隐藏的数据,各行各业都会出现网络爬虫的身影。那么,这些爬虫到底是靠什么高效地收集到这些信息的呢?

网络爬虫会运用很多手段,其中一种高效且常见的方式是浏览器伪造,它的原理是模仿真实用户使用浏览器的行为,通过伪装成普通浏览器的HTTP客户端自动向目标网站发出请求。以下为利用Selenium模拟器工具爬取图片网站的桌面壁纸资源:

近5亿ins用户信息遭爬虫?极验反爬新思路_验证码_05

某网站桌面壁纸

近5亿ins用户信息遭爬虫?极验反爬新思路_数据_06

浏览器正在进行自动化操作


近5亿ins用户信息遭爬虫?极验反爬新思路_IP_07

在开发者工具中检查

近5亿ins用户信息遭爬虫?极验反爬新思路_验证码_08

最终通过爬虫下载的图片

除此之外,网络爬虫还经常通过频繁切换IP地址来避免被系统封禁,从而持续地获取目标网站的数据。为了爬取资源实现获利,它们甚至会针对验证码进行破jie。这些技术手段不仅让网络爬虫更具隐蔽性,也大大增加了网站防护的难度和运营成本。

我们新型的反爬方案

目前,大多数企业已经使用了验证码或WAF 的方式去限制网络爬虫,却依旧难以改变被爬虫侵占网站流量的现状。这是因为黑产的爬虫技术在持续升级,传统的反爬方案已经不能有效应对日益复杂的网络爬虫。那么,新型的反爬方案究竟如何解决这一难题?

上文中我们就提到,网络爬虫存在的根本原因是其巨大的商业价值,黑产能从中获得巨额利润。那如果我们让黑产投入的成本大于盈利呢?

这是一个国内比较流行的爬虫工具网站的验证码打码功能的收费情况:每个验证码0.05元。当这些黑产爬虫破jie一个验证码的成本到每个验证码0.1元时,黑产还会继续破jie吗?

近5亿ins用户信息遭爬虫?极验反爬新思路_IP_09

某爬虫平台验证码破jie收费

极验新型的反爬方案就是通过灵活搭建行为验证+设备指纹能力,将黑产网络爬虫的成本提高,让黑产主动放弃继续爬取信息、继续进攻的想法。

行为验证-图片穷举:极验行为验证具有验证图集热更新功能,我们首次开发了一套图集自动更新系统,通过制作生成模板,做到了每小时更新三十万张图片,高效高频地更新验证资源,使得黑产无法再通过模型训练穷举破jie验证码。

行为验证-浏览器伪造:极验行为验证的CT异常标记功能可以通过比对用户请求携带的参数区分该请求是否由模拟器发起。从而,我们可以对标记了异常的请求做出限制。

近5亿ins用户信息遭爬虫?极验反爬新思路_验证码_10

以某政府信息网站G为例,该网站的主要突出问题就是网络爬虫。该网站每分钟的流量可达十万以上,然而其中38%以上流量都来自爬虫。在下图中我们能很明显地看出CT异常标记功能对网络爬虫的有效遏制作用,在该功能的作用下,网站的数据流量恢复到了正常水平。

近5亿ins用户信息遭爬虫?极验反爬新思路_IP_11

除了政府行业网站,极验目前已深耕互联网业务安全12余年,头部企业市场占有率已高达56.2%,远超其他同类型厂商。截止目前,极验服务了全球范围内36万家网站或APP,日均提供超过29亿次安全防护,服务覆盖政府、金融、医疗、教培、游戏和媒体论坛等与人们生活息息相关的30 个细分行业。

设备指纹-IP伪造代理:极验设备指纹能力支持IP风险信息识别,帮助企业判断当前流量IP是否存在风险,日均更新百万级风险IP库,提高IP识别准确性,通过行为验证+设备指纹搭建的解决方案,可以更加灵活地应对网络爬虫的问题。

极验反爬新型方案从识别异常到处置异常,有效降低了爬虫对网站数据的抓取,保护了网站资源,减少因爬虫带来的流量压力和运营成本,保障了真实用户的使用体验。未来,极验行为验证和设备指纹技术将不断优化升级,以应对更加复杂和隐蔽的爬虫行为,为数字化生活打造更加安全、高效的防护屏障。