JavaScript逆向爬虫实战分析

简介: JavaScript逆向爬虫实战分析

JavaScript逆向爬虫实战分析
以一个简单的网站https://login1.scrape.center/为例。这个网站只有“用户名”文本框、“密码”文本框和“登录”按钮,入图所示:

image.png

但是不同的是,点击“登录”按钮的时候,表单提交POST的内容并不是单纯的用户名和密码,而是一个加密后的token。输入用户名和密码(都是admin),点击“登录”按钮,观察网络请求的变化,结果如下图所示:

image.png
image.png

我们不需要关心响应的结果和状态,主要看请求的内容就可以了。能看到,点击“登录”按钮时,发起了一个POST请求,内容为:

{“token”:“eyJ1c2VybmFtZSI6ImFkbWluIiwicGFzc3dvcmQiOiJhZG1pbiJ9”}

确实,没有诸如username和password的内容,怎么模拟登录呢?模拟登录的前提就是找到当前的token生成的逻辑,那么问题来了,这个token和用户名、密码到底是什么关系呢?如何寻找其中的蛛丝马迹呢?

思考一下,输入的 是用户名和密码,但是提交的时候变成了一个token,经过观察并结合一些经验可以看出,token的内容非常像Base64编码。这就说明,网站可能首先将用户名和密码混为一个新的字符串,经过一次Base64编码,最后将其赋值为token来提交了。所以,经过初步观察,可以获取这些信心。

那就验证一下吧!探究网站JavaScript代码里面如何实现的。首先,看一下网站的源码,打开Sources面板,看起来都是webpack打包之后的内容经过了一些混淆,如图所示:

image.png

这么多混淆代码,怎么去找token的生成位置呢?解决方法其实有两种,一种是前文所讲的Ajax断点,另一种就是Hook。

Ajax断点
由于这个请求正好是Ajax请求,所以我们可以添加一个XHR断点来监听,把POST的网址加到断点上面。在Sources面板右侧添加一个XHR断点,匹配内容就填当前域名,如图所示:
这时候如果我们再点击“登录”按钮,发起一次Ajax请求,就可以进入断点了,然后再看堆栈信息,就可以一步步找到编码的入口了。再次点击“登录”按钮,页面进入断点状态,停下来了,结果如图所示:

image.png

一步步找,最后可以找到入口其实在onSubmit方法那里。而我们真正想找的用户名和密码经过处理,再进行Base64编码的地方,这些请求的调用实际上和我们找寻的入口没有很大的关系。另外,如果我们想找的入口位置并不伴随这一次Ajax请求,这个方法就没法用了。

下面再看一下另一个方法——Hook。

Hook
第二种可以快速定位入口的方法,就是使用Tampermonkey自定义JavaScript,实现某个JavaScript方法的Hook。Hook哪里呢?很明显,Hook Base64编码的位置就好了。

JavaScript里面的Base64编码是怎么实现的?就是btoa方法,在JavaScript中该方法用于将字符串编码成Base64字符串,因此我们来Hook btoa方法就好了。

这里新建一个Tampermonkey脚本,内容如下:

// ==UserScript==
// @name         HookBase64
// @namespace    https://login1.scrape.center/
// @version      0.1
// @description  Hook Base64 encode function
// @author       xiaowei
// @match        https://login1.scrape.center/
// @grant        none
// ==/UserScript==

(function() {
   
    'use strict';

    // Your code here...
    function hook(object, attr){
   
        var func = object[attr]
        object[attr] = function(){
   
            console.log('hooked', object,attr)
            var ret = func.apply(object, arguments)
            debugger
            return ret
        }
    }
    hook(window, 'btoa')
})();

定义一些UserScript Header,包括@name和@match等。这里比较重要的就是@name,表示脚本名称;另外一个就是@match,它代表脚本生效的网址。定义了hook方法,这里给其传入object和attr参数,意思就是Hook object对象的attr参数。例如,如果我们想Hook alert方法,那就把object设置为window, 把attr设置为字符串alert。这里我们想要Hook Base64编码方法,而在JavaScript中,Base64编码是用btoa方法实现的,所以这里只需要Hook window对象的btoa方法就好了。

Hook是怎么实现的呢?var func = object[attr],相当于先把它赋值为一个变量,即我们调用func方法就可以实现和原来相同的功能。接着,我们直接改写这个方法的定义,将object[attr]改写成一个新的方法。在新的方法中,通过func.apply方法又重新调用了原来的方法。这样我们就可以保证前后方法的执行效果不受影响,之前这个方法该干啥还干啥。

但是和之前不同的是,现在自定义方法之后,可以在func方法执行前后加入自己的代码,如通过console.log将信息输出到控制台,通过debugger进入断点等。在这个过程中,先临时保存下来func方法,然后定义一个新的方法,接管程序控制权,在其中自定义我们想要的实现,同时在新的方法里面重新调用回func方法,保证前后结果不受影响。所以,我们达到了在不影响原有方法效果的前提下,实现在方法前后自定义的功能,这就是Hook的过程。

调用hook方法,传入window对象和btoa字符串,保存。接下来刷新页面,可以看到这个脚本在当前页面生效了,Tempermonkey插件面板提示了已经启用。同时,在Sources面板下的Page选项卡中,可以观察到我们定义的JavaScript脚本被执行了,如图所示:

image.png

成功Hook住了,这说明JavaScript代码在执行过程中调用到了btoa方法。这时看一下控制台,也输出了window对象和btoa方法,验证正确,如下图所示:

image.png

这样就顺利找到了Base64编码操作这个路口,然后看一下堆栈信息,清晰地呈现了btoa方法逐层调用的过程,如图所示:

image.png

再观察下Local面板,看看arguments变量是怎么样的?如图所示:

image.png

一目了然,arguments就是传给btoa方法的参数,ret就是btoa方法返回的结果。arguments就是username和password通过JSON序列化之后的字符串,经过Base64编码之后得到的值恰好就是Ajax请求参数token的值。

还可以通过调用栈找到onSubmit方法的处理源码:

onSubmit: function() {
   
                    var e = c.encode(JSON.stringify(this.form));
                    this.$http.post(a["a"].state.url.root, {
   
                        token: e
                    }).then((function(e) {
   
                        console.log("data", e)
                    }
                    ))
                }

发现,encode方法其实就是调用了btoa方法,就是一个Base64编码的过程,答案其实已经很明了了。进一步添加断点验证一下流程,比如在调用encode方法的那行添加断点,如图所示:

image.png

添加断点之后,可以点击Resume script execution按钮恢复JavaScript的执行,跳过当前Tempermonkey定义的断点位置,如图所示:

image.png

然后重新点击“登录”按钮,可以看到这时候代码就停在当前添加断点的位置,如图所示:

image.png

这时候可以在Watch面板下输入this.form,验证此处是否为在表单中输入的用户名和密码,如图所示:
image.png

没问题,然后逐步调试。可以观察到,下一步就跳到了我们Hook的位置,这说明调用了btoa方法,如图所示。可以看到,返回的结果正好就是token的值。

image.png

到这里,已经非常清晰了,整体逻辑就是对登录表单的用户名和密码进行JSON序列化,然后调用encode

(也就是btoa方法),并把encode方法的结果赋值为token发起登录的Ajax请求,逆向完成。

所以,通过Tampermonkey自定义JavaScript脚本的方式,实现了某个方法调用的Hook,使得我们能快速定位到加密入口的位置,非常方便。触类旁通,如Hook encode方法、decode方法、stringify方法、log方法、alert方法等,简单高效。

相关文章
|
4天前
|
数据采集 存储 机器学习/深度学习
Fuel 爬虫:Scala 中的图片数据采集与分析
Fuel 爬虫:Scala 中的图片数据采集与分析
|
2月前
|
存储 安全 API
Next.js 实战 (九):使用 next-auth 完成第三方身份登录验证
这篇文章介绍了next-auth,一个为Next.js设计的身份验证库,支持多种认证方式,如电子邮件和密码、OAuth2.0提供商(如Google、GitHub、Facebook等)以及自定义提供商。文章包含了如何配置Github Provider以及会话管理,并提到了适配器Adapters在next-auth中的作用。最后,文章强调了next-auth的强大功能值得进一步探索。
114 10
|
9天前
|
数据采集 XML 存储
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
|
1天前
|
数据采集 JSON 监控
Haskell爬虫:为电商运营抓取京东优惠券的实战经验
Haskell爬虫:为电商运营抓取京东优惠券的实战经验
|
1月前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
2月前
|
设计模式 数据安全/隐私保护
Next.js 实战 (七):浅谈 Layout 布局的嵌套设计模式
这篇文章介绍了在Next.js框架下,如何处理中后台管理系统中特殊页面(如登录页)不包裹根布局(RootLayout)的问题。作者指出Next.js的设计理念是通过布局的嵌套来创建复杂的页面结构,这虽然保持了代码的整洁和可维护性,但对于特殊页面来说,却造成了不必要的布局包裹。文章提出了一个解决方案,即通过判断页面的skipGlobalLayout属性来决定是否包含RootLayout,从而实现特殊页面不包裹根布局的目标。
119 33
|
2月前
|
中间件 API
Next.js 实战 (八):使用 Lodash 打包构建产生的“坑”?
这篇文章介绍了作者在使用Nextjs15进行项目开发时遇到的部署问题。在部署过程中,作者遇到了打包构建时的一系列报错,报错内容涉及动态代码评估在Edge运行时不被允许等问题。经过一天的尝试和调整,作者最终删除了lodash-es库,并将radash的部分源码复制到本地,解决了打包报错的问题。文章最后提供了项目的线上预览地址,并欢迎读者留言讨论更好的解决方案。
59 10
|
3月前
|
前端开发 API 开发者
Next.js 实战 (五):添加路由 Transition 过渡效果和 Loading 动画
这篇文章介绍了Framer Motion,一个为React设计的动画库,提供了声明式API处理动画和页面转换,适合创建响应式用户界面。文章包括首屏加载动画、路由加载Loading、路由进场和退场动画等主题,并提供了使用Framer Motion和next.js实现这些动画的示例代码。最后,文章总结了这些效果,并邀请读者探讨更好的实现方案。
|
2月前
|
JavaScript 前端开发 API
Next.js 实战 (六):如何实现文件本地上传
这篇文章介绍了在Next.js中如何实现文件上传到本地的方法。文章首先提到Next.js官方文档中没有提供文件上传的实例代码,因此开发者需要自行实现,通常有两种思路:使用Node.js原生上传或使用第三方插件如multer。接着,文章选择了使用Node.js原生上传的方式来讲解实现过程,包括如何通过哈希值命名文件、上传到指定目录以及如何分类文件夹。然后,文章展示了具体的实现步骤,包括编写代码来处理文件上传,并给出了代码示例。最后,文章通过一个效果演示说明了如何通过postman模拟上传文件,并展示了上传后的文件夹结构。
|
3月前
Next.js 实战 (二):搭建 Layouts 基础排版布局
本文介绍了作者在Next.js v15.x版本发布后,对一个旧项目的重构过程。文章详细说明了项目开发规范配置、UI组件库选择(最终选择了Ant-Design)、以及使用Ant Design的Layout组件实现中后台布局的方法。文末展示了布局的初步效果,并提供了GitHub仓库链接供读者参考学习。
103 1
Next.js 实战 (二):搭建 Layouts 基础排版布局

热门文章

最新文章