开发者社区> 问答> 正文

关于不标准网页的HTML元素属性提取

我做一个检测并获取当前页面RSS源的小东西,对于这个网页: http://my.oschina.net/u/134913?p=9#dynainfo,里面有
不管使用xpath/jquery还是普通 js: document.getElementsByTagName('link').href 获取到的都是 http://my.oschina.net/u/144551/$g_space.url( ,不是真正正确的 http://my.oschina.net/u/144551/$g_space.url("rss") ,大家有没有什么好办法处理这种编写不是很规范的网页呢?

展开
收起
a123456678 2016-07-05 16:29:55 2032 0
1 条回答
写回答
取消 提交回答
  • <link   rel    ="  alternate  "   type  ="  application/rss+xml  "   title  ="  最新博客  "  href  =" $g_space.url(  "  rss")"  /> 这个标记的  outerHTML.toString()为  <link rel="alternate" type="application/rss+xml" title="最新博客" href="$g_space.url(" rss")"="">,里面  url("后多了一个空格,有莫名奇妙的有个=,不好处理呀!
    2019-07-17 19:51:36
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
《零基础HTML入门教程》 立即下载
天猫 HTML5 互动技术实践 立即下载
天猫HTML5互动技术实践 立即下载