雅虎开源解析HTML页面数据的Web爬取工具Anthelion

简介:

12月14日,Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion。Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail,Yahoo Finance,Yahoo Messenger,Flickr 和 Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。





本文作者:佚名
来源:51CTO
目录
相关文章
|
9天前
|
前端开发 JavaScript BI
Django教程第5章 | Web开发实战-数据统计图表(echarts、highchart)
使用echarts和highcharts图表库实现折线图、柱状图、饼图和数据集图
30 2
|
2月前
|
安全 算法 Linux
CentOS7下部署长亭科技雷池Web应用防火墙(WAF)开源社区版
CentOS7下部署长亭科技雷池Web应用防火墙(WAF)开源社区版
132 0
|
2月前
|
数据采集 XML 自然语言处理
Python 数据解析:从基础到高级技巧
Python 数据解析:从基础到高级技巧
20 0
|
2月前
|
数据采集 开发者 Python
Python爬虫实战:利用Beautiful Soup解析网页数据
在网络爬虫的开发过程中,数据解析是至关重要的一环。本文将介绍如何利用Python的Beautiful Soup库来解析网页数据,包括解析HTML结构、提取目标信息和处理特殊情况,帮助开发者更好地实现爬虫功能。
|
8天前
|
Web App开发 测试技术 数据安全/隐私保护
Web自动化测试工具Selenium
Web自动化测试工具Selenium
|
9天前
|
数据采集 XML 数据处理
Python爬虫实战:利用BeautifulSoup解析网页数据
本文将介绍如何利用Python中的BeautifulSoup库来解析网页数据,帮助读者更好地开发爬虫程序,实现自动化数据采集与处理。
|
14天前
|
数据库连接 开发工具 git
百度搜索:蓝易云【miniframe开源Web框架编译及运行环境配置】
以上步骤是简要的miniframe编译及运行环境配置说明。miniframe是一个简单易用的Web框架,适合快速构建小型Web应用程序。在实际使用中,你还可以根据需要添加自定义的路由、控制器和视图,以及扩展其他功能。买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
27 7
|
24天前
|
SQL 开发框架 .NET
ASP.NET WEB+EntityFramework数据持久化——考核练习库——1、用户管理系统(考点:查询列表、增加、删除)
ASP.NET WEB+EntityFramework数据持久化——考核练习库——1、用户管理系统(考点:查询列表、增加、删除)
55 0
|
26天前
|
XML API 开发者
阿里巴巴商品详情数据接口调用和解析python
阿里巴巴商品详情数据接口调用和解析python
20 0
|
26天前
|
存储 监控 NoSQL
Redis 大键问题解析:如何管理和优化巨型数据【redis拓展】
Redis 大键问题解析:如何管理和优化巨型数据【redis拓展】
30 0

相关产品

推荐镜像

更多