备案控制台

开发者社区开发与运维文章正文

描述如何从网页提取结构化数据的语言：Parsley

2016-04-26 2210

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

郑昀@玩聚SR 20091127

Scrapy里面用到了Parsley。
Parsley是一个挺有意思的小东西，它综合运用了CSS、XPath、正则表达式和JSON，是描述如何从网页里提取结构化数据的简单语言。估计做爬虫(Crawler/Spider)的人都会定义一套类似的模板。只不过Parsley还帮你把具体实现做了，用各种开发语言。

基本事实

Parselets就是用Parsley语言写成的片段(snippets)。

你可以近似认为一个Parselet定义了一套动作，描述如何从html代码中精确抽取数据，比如标题在哪儿，标题的链接怎么拿，评论数在哪儿如何提取。

Parsley有各种语言实现包，Ruby、Python、C/C++等。
pyparsley是对应的Python库。

Code和Result示例

具体例子参见：http://parselets.com/parselets/yc/15 ，

Code

左侧的Code就是我们通常说的模板，右边的Result就是提取的结构化数据。

那么它是如何变为现实的呢？

实现

安装Parsley，再安装http://github.com/fizx/pyparsley，然后运行如下Python代码，就可以从给定网页链接，通过Parselet的描述，获得json格式的结构化数据。

Python

zhengyun 20091127 beijing

文章标签：

Python

C++

Ruby

前端开发

数据采集

数据格式

JSON

郑昀

目录

相关文章

魏红斌

|

9天前

|

存储 Serverless API

通过图片视觉理解，结构化提取属性信息测评报告

本文详细评测了阿里云的图片信息提取解决方案，涵盖部署、功能测试、性能表现及安全性考量等方面。该方案结合函数计算、对象存储与百炼模型服务，提供高效、准确的图像处理能力，适合快速搭建图像处理应用。

魏红斌

207 12 12

探索云世界

|

11天前

|

人工智能 Serverless 数据处理

通过图片视觉理解，结构化提取属性信息

邀请您参加图片信息提取挑战！使用AI技术提升数据处理效率，通过部署应用并上传图片信息截图，即可赢取南瓜蒲团坐垫，每日限量50个，先到先得。活动截止至2024年12月27日16:00。立即访问活动页面参与吧！

探索云世界

38 7 7

蚝油菜花

|

1月前

|

机器学习/深度学习人工智能自然语言处理

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具，支持灵活的本地或云端部署。

蚝油菜花

93 8 8

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

奔跑的数据

|

3月前

|

数据采集 JavaScript 前端开发

网页抓取进阶：如何提取复杂网页信息

在信息爆炸时代，从复杂网页中高效抓取数据对开发者和分析师至关重要。本文探讨如何利用 `webpage` 对象结合代理IP技术，轻松抓取如大众点评这类动态加载且具备反爬机制的网站数据。通过 Python 的 `requests`、`BeautifulSoup` 和 `Selenium`，结合代理IP，详细讲解了如何应对动态内容加载、反爬机制等问题，并提供了具体代码实现。通过这种方法，可以批量抓取商家信息，为数据分析提供支持。

奔跑的数据

246 1 1

网页抓取进阶：如何提取复杂网页信息

阿文没烦恼

|

7月前

|

Python

如何使用正则表达式提取网页中的特定信息

如何使用正则表达式提取网页中的特定信息

阿文没烦恼

193 1 1

A等天晴

|

机器学习/深度学习自然语言处理算法

文本数据处理：基本技巧与实例分析

文本数据处理：基本技巧与实例分析

A等天晴

450 0 0

可夫小子

|

人工智能自然语言处理搜索推荐

插件推荐：一键提取视频和网页摘要Glarity

插件推荐：一键提取视频和网页摘要Glarity

可夫小子

321 0 0

插件推荐：一键提取视频和网页摘要Glarity

大数据架构师

|

存储数据管理数据库

非结构化数据怎么盘点？

非结构化数据怎么盘点？

大数据架构师

238 0 0

Python乱炖

|

存储 XML 容灾

结构化数据,我该拿你怎么办？

结构化数据,我该拿你怎么办？

Python乱炖

157 0 0

未闻Code

|

数据采集监控应用服务中间件

一日一技：更友好的格式化数据提取方案

一日一技：更友好的格式化数据提取方案

未闻Code

88 0 0

热门文章

最新文章

CentOS7 yum的一次报错" 14: curl#56 - "Recv failure: Connection reset by peer" "

使用cProfile等工具来提高python的执行速度

四大触点，教你从“用户视角”构建数据分析体系

Spring-boot+Dubbo应用启停源码分析

Myeclipse常用优化1

Android开发学习笔记：数据存取之File浅析

Android Service完全解析，关于服务你所需知道的一切(下)

【妄言之言】致二十四岁的自己

oracle 11g adrci 工具使用方法

S3C2410-WinCE6.0-OAL的快速调试

《容器化赋能：C++人工智能模型部署的卓越之道》

《C++与类脑芯片：开启人工智能硬件新征程》

《C++与AMD ROCm：人工智能计算的强力引擎》

《C++携手英特尔OpenVINO：加速人工智能推理新征程》

《C++ 赋能强化学习：Q - learning 算法的实现之路》

鸿蒙开发：ForEach中为什么键值生成函数很重要

AI+脱口秀，笑点能靠算法创造吗

「Mac畅玩鸿蒙与硬件45」UI互动应用篇22 - 评分统计工具

AI客服会完全替代人工客服吗

影智科技唐沐：人形是累赘，具身智能并不缺少落地场景

相关电子书

更多

从非结构化到结构化的智能之路

数据展现：可视化报表及嵌入应用

低代码开发师（初级）实战教程

下一篇

阿里云oss存储简介和如何使用