文档备案控制台

开发者社区问答正文

php 抓取的页面如何处理可以只保留DOM结构，去掉CSS和JS？

正则规则写好后，页面一旦有改变就要重新修改正则。
先提取页面的 DOM，有没有比较好的办法？

展开

收起

a123456678 2016-03-25 09:48:14 2713 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

coln

Hello World

Hey Welcome

2019-07-17 19:13:31

赞同展开评论

a123456678

我想你需要的是 php 的 DOM 模块 ... 默认有安装不用担心 ...

因为不知道你的实际应用场景是什么 ... 给你写个简单的例子吧 ...

<?php
/* i heard that you need DOM ..? */
$doc = new DOMDocument();

/* i wrote a simple page ... change it to a curl result ... */
$doc->loadHTML( <<<HTML_SECTION
<html><head><title>Sunyanzi's Test</title></head>
<body>
  <h1>Hello World</h1>
  <a href="http://segmentfault.com/" id="onlylink">Hey Welcome</a>
</body></html>
HTML_SECTION
);

/* now we should try to get something ... */
$h1Elements = $doc->getElementsByTagName( 'h1' );

/* this line prints "Hello World" ... */
foreach( $h1Elements as $h1Node ) 
    echo $h1Node->nodeValue, PHP_EOL;

/* and this line prints "http://segmentfault.com/" ... */
echo $doc->getElementById( 'onlylink' )->getAttribute( 'href' ), PHP_EOL;

/* now i will introduce something advanced ... using XPath ... */
$xpath = new DOMXPath( $doc );

/* also prints "http://segmentfault.com/" ... locate via h1 ... */
echo $xpath->evaluate(
    'string(//h1[text()="Hello World"]/following-sibling::a/@href)'
    ), PHP_EOL;

基本上 ... 等到你熟练掌握 XPath 之后 ... 你会发现 DOM 比正则要灵活得多 ...

php 处理 XML 的能力远远超乎你的想象 ... 有空读读手册不是坏事恩 ...

2019-07-17 19:13:31

赞同展开评论

问答分类：

JavaScript 前端开发 PHP

问答标签：

CSS页面 JavaScript页面 CSS js dom页面 PHP页面

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在JavaScript中，如何处理Promise的异常？

274

1

0

钉钉写一个完全由css实现的渐入效果的页面，如何解决？

283

1

0

宜搭js里获取不到页面dom元素了

452

4

0

AI中请问目前有 PHP 或 node.js 调用实时语音的示例代码吗？

510

1

0

请问静态文件CSS和JS，在SERVERLESS DEVOPS 发布后加载不了怎么处理？PYTHON

1179

1

0

对于网络 I/O 请求等一些耗时较长的任务，JavaScript会如何处理？

526

1

0

纯 CSS 框架工具和 CSS-in-JS 的区别是什么？

547

1

0

相对于驱动应用的主 JavaScript 线程，Service Worker为什么不能访问DOM？

1046

1

0

CSS的语言特点中页面压缩是什么呀？

625

1

0

CSS的语言特点中多页面应用是什么呀？

589

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

新手如何进行OSS 图片处理 CDN 加速？

qoder 资源包买完找不到记录也不知道再用，究竟是谁设计的，没见过这样的设计，

需要支持自定义Kimi k3 API

我购买了pro+套餐，在vs code中使用提示限额，需要怎么处理？

WordPress站点怎么进行速度优化？

相关文章

网站建设用户体验-如何利用 HTML5 Video 标签实现全屏背景视频

Loop Engineering 已死？Graph Engineering 是什么？我好像在哪里见过

TikTok多账号运营环境的技术架构与稳定性分析

通义千问Qwen3.7-Max与Plus深度选型指南：百炼平台模型能力、计费方案与API接入全教程

双类 MFA 绕过钓鱼工具攻击机理与云身份防御体系研究

还有其他疑问?