雅虎开源解析HTML页面数据的Web爬取工具Anthelion-阿里云开发者社区

开发者社区> 玄学酱> 正文

雅虎开源解析HTML页面数据的Web爬取工具Anthelion

简介:
+关注继续查看

12月14日,Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion。Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail,Yahoo Finance,Yahoo Messenger,Flickr 和 Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。





本文作者:佚名
来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
C# 面试题解析-请遍历页面上所有的TextBox控件并给它赋值为string.Empty
请遍历页面上所有的TextBox控件并给它赋值为string.Empty 网上能查到的一些解法的问题 第一种,遍历this.Controls 代码如下: foreach (Control ctl in this.
529 0
+关注
玄学酱
这个时候,玄酱是不是应该说点什么...
17436
文章
438
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载