智能嗅探AJAX触发:机器学习在动态渲染中的创新应用

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
简介: 随着Web技术发展,动态加载数据的网站(如今日头条)对传统爬虫提出新挑战:初始HTML无完整数据、请求路径动态生成且易触发反爬策略。本文以爬取“AI”相关新闻为例,探讨了通过浏览器自动化、抓包分析和静态逆向接口等方法采集数据的局限性,并提出借助机器学习智能识别AJAX触发点的解决方案。通过特征提取与模型训练,爬虫可自动推测数据接口路径并高效采集。代码实现展示了如何模拟AJAX请求获取新闻标题、简介、作者和时间,并分类存储。未来,智能化将成为采集技术的发展趋势。

一、问题描述:数据加载变“隐形”,采集举步维艰

随着Web技术不断发展,越来越多网站采用了AJAX、动态渲染等技术来加载数据。以今日头条(https://www.toutiao.com) 为例,用户打开网页时并不会一次性加载所有信息,而是通过JavaScript触发异步请求分批加载新闻数据。

对于传统爬虫,这种动态加载的数据变得“隐形”:

  • 页面初始HTML并无完整数据
  • 请求路径是JavaScript动态拼接
  • 请求频率稍高就触发反爬策略

于是,如何精准嗅探出这些AJAX请求路径、参数及触发方式,成了采集中的新难题。


二、场景再现:爬取关键词“AI”的头条新闻

设定任务:从 https://www.toutiao.com 中搜索关键词“AI”,采集相关新闻的标题、简介、作者和发布时间。初看HTML源代码,会发现结构复杂、数据嵌入 JavaScript 中,无法直接提取。

我们尝试用传统 BeautifulSoup + requests 抓取,发现返回结果中并无新闻数据,失败告终。


三、多种尝试:模拟浏览器?分析XHR?依旧低效

面对这种问题,我们尝试以下三种方法:

  1. 浏览器自动化(如Selenium):虽然可以加载全部页面内容,但执行效率低,无法大规模采集。
  2. 抓包分析(Chrome DevTools):定位XHR请求路径并手动拼接参数,但路径容易改变、无法适应动态规则。
  3. 静态逆向接口:部分API参数存在签名校验或时间戳校验,逆向成本高。

因此,我们需要一种更智能的方式让爬虫“学会”识别页面中的AJAX行为并自动推测请求方式


四、解决方法:引入机器学习,智能识别AJAX触发点

借助机器学习+页面行为特征提取,我们构建了一个智能嗅探器,流程如下:

  1. 输入关键词构造URL,加载HTML页面
  2. 用正则+特征匹配分析页面中潜在的AJAX触发入口
  3. 基于训练集模型识别出真实数据接口路径
  4. 构造Headers,使用爬虫代理请求真实数据
  5. 解析JSON结构,抽取标题、简介、作者和时间并分类存储

以下是核心代码实现部分:


五、核心代码

import requests
import json
import time
import random
from urllib.parse import quote

# 爬虫代理IP配置(以亿牛云代理为例 www.16yun.cn)
proxy_host = "proxy.16yun.cn"   #your-proxy-domain
proxy_port = "31000"   #your-port
proxy_user = "16YUN"   #your-username
proxy_pass = "16IP"    #your-password

# 构造代理格式
proxies = {
   
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"
}

# 设置User-Agent和cookie,模拟真实用户访问
headers = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36",
    "cookie": "tt_webid=1234567890abcdef; other_cookies=xxx"
}

# 关键词搜索
keyword = "AI"
encoded_keyword = quote(keyword)

# 模拟 AJAX 请求接口(来自浏览器F12提取的接口,带关键词参数)
def fetch_news(keyword):
    url = f"https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword={encoded_keyword}&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab"

    try:
        response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
        data = response.json()
        result = []

        for item in data.get("data", []):
            if not item.get("title"):
                continue
            news = {
   
                "标题": item.get("title", ""),
                "简介": item.get("abstract", ""),
                "作者": item.get("media_name", "未知"),
                "时间": item.get("datetime", "未知")
            }
            result.append(news)

        return result
    except Exception as e:
        print(f"抓取出错:{e}")
        return []

# 分类存储(按作者存为独立文件)
def save_by_author(news_list):
    from collections import defaultdict
    import os

    grouped = defaultdict(list)
    for news in news_list:
        grouped[news["作者"]].append(news)

    if not os.path.exists("output"):
        os.mkdir("output")

    for author, items in grouped.items():
        filename = f"output/{author}.json"
        with open(filename, "w", encoding="utf-8") as f:
            json.dump(items, f, ensure_ascii=False, indent=2)

if __name__ == "__main__":
    news_data = fetch_news(keyword)
    print(f"共抓取到 {len(news_data)} 条资讯")
    save_by_author(news_data)

六、原理分析:从规则硬编码 → 学习预测接口结构

这类动态接口的一个关键特征是:参数格式、接口路径在用户行为驱动下形成。因此,通过对已知接口路径(如 /api/search/content)进行归纳、训练,可以构建轻量型预测器(如基于TF-IDF+随机森林分类器),识别新页面中是否存在可用AJAX接口。

当然,本文采用了简化版“人工辅助+规则模板”识别方式。在实际大型项目中,可以扩展为:

  • 使用 Puppeteer/Playwright 获取完整DOM+XHR调用记录
  • 使用 LLM 模型预测数据加载源
  • 构建接口路径聚类系统,自动适应接口变更

七、结语:未来已来,采集正逐步“智能化”

面对复杂的前端动态渲染,靠写死的路径早已无法应对日益频繁的页面结构变动。通过引入机器学习和行为识别,我们能让爬虫具备“嗅觉”和“判断力”,甚至主动适应页面的变化。

相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
242 8
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
3月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
3月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。
|
3月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。
|
4月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
4月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
N..
|
XML JSON 前端开发
jQuery实现Ajax
jQuery实现Ajax
N..
164 1
|
XML 前端开发 JavaScript
jQuery中ajax如何使用
jQuery中ajax如何使用
218 0
|
前端开发 JavaScript
杨校老师课堂之基于Servlet整合JQuery中的Ajax进行表单提交[基于IDEA]
杨校老师课堂之基于Servlet整合JQuery中的Ajax进行表单提交[基于IDEA]
168 0
杨校老师课堂之基于Servlet整合JQuery中的Ajax进行表单提交[基于IDEA]