备案控制台

开发者社区问答正文

php 抓取的页面如何处理可以只保留DOM结构，去掉CSS和JS？

正则规则写好后，页面一旦有改变就要重新修改正则。
先提取页面的 DOM，有没有比较好的办法？

展开

收起

a123456678 2016-03-25 09:48:14 2592 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

coln

Hello World

Hey Welcome

2019-07-17 19:13:31

赞同展开评论

a123456678

我想你需要的是 php 的 DOM 模块 ... 默认有安装不用担心 ...

因为不知道你的实际应用场景是什么 ... 给你写个简单的例子吧 ...

<?php
/* i heard that you need DOM ..? */
$doc = new DOMDocument();

/* i wrote a simple page ... change it to a curl result ... */
$doc->loadHTML( <<<HTML_SECTION
<html><head><title>Sunyanzi's Test</title></head>
<body>
  <h1>Hello World</h1>
  <a href="http://segmentfault.com/" id="onlylink">Hey Welcome</a>
</body></html>
HTML_SECTION
);

/* now we should try to get something ... */
$h1Elements = $doc->getElementsByTagName( 'h1' );

/* this line prints "Hello World" ... */
foreach( $h1Elements as $h1Node ) 
    echo $h1Node->nodeValue, PHP_EOL;

/* and this line prints "http://segmentfault.com/" ... */
echo $doc->getElementById( 'onlylink' )->getAttribute( 'href' ), PHP_EOL;

/* now i will introduce something advanced ... using XPath ... */
$xpath = new DOMXPath( $doc );

/* also prints "http://segmentfault.com/" ... locate via h1 ... */
echo $xpath->evaluate(
    'string(//h1[text()="Hello World"]/following-sibling::a/@href)'
    ), PHP_EOL;

基本上 ... 等到你熟练掌握 XPath 之后 ... 你会发现 DOM 比正则要灵活得多 ...

php 处理 XML 的能力远远超乎你的想象 ... 有空读读手册不是坏事恩 ...

2019-07-17 19:13:31

赞同展开评论

问答分类：

JavaScript 前端开发 PHP

问答标签：

CSS页面 JavaScript页面 CSS js JavaScript CSS dom页面

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

钉钉写一个完全由css实现的渐入效果的页面，如何解决？

155

1

0

请问静态文件CSS和JS，在SERVERLESS DEVOPS 发布后加载不了怎么处理？PYTHON

1063

1

0

纯 CSS 框架工具和 CSS-in-JS 的区别是什么？

466

1

0

CSS的语言特点中页面压缩是什么呀？

544

1

0

CSS的语言特点中多页面应用是什么呀？

513

1

0

我存放在OSS里面的js文件和css文件访问的时候都乱码了，请问怎么回事呀

37486

26

0

哪项方式可以对一个DOM设置它的CSS样式啊？

3256

1

0

如何设置页面中某个DIV标签相对页面水平居中的CSS样式？

1794

1

0

在CSS 中不在当前页面的形式是什么呢？

590

1

0

在HTML页面中，CSS样式的属性名为z-index对应的style对象的属性名是什么呢？

818

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

12月冬日咖啡礼｜大模型解决方案邀你来体验

相关文章

【Azure Stream Analytic】用 JavaScript UDF 解决 JSON 字段被转成 Record 的关键点

Coze实测：这个Agent到底有多强，竟能让字节服务器"爆棚"？

年终汇报新思路：领导真正关心的四个关键层面

Pandabuy复制指南：淘宝1688代购系统搭建

开箱即用的 GoWind Admin｜风行，企业级前后端一体中后台框架：Casbin集成指南

还有其他疑问?