开发者社区> 问答> 正文

如何从海量网页中抽取出作者,时间,评论内容等信息?

hbase中有海量网页源代码,需要从海量源代码中精确抽取出【作者,时间,评论内容,点击数】等信息,请问,我该按照什么步骤,思路操作?

展开
收起
hyxt 2016-12-14 09:40:12 2227 0
2 条回答
写回答
取消 提交回答
  • 可以从hbase中批量读取数据,然后对数据进行抽取,网页的格式应该是固定的吧,这个就可以使用各种工具来完成;如果量比较大可以再写会hbase,不过一般情况下解析结果再mysql等关系数据库应该可以够存储了

    2019-07-17 20:33:48
    赞同 展开评论 打赏
  • 前端工程师

    可以用网页内容分析工具进行字段匹配,python有个Beautiful Soul库专门干这个的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

    2019-07-17 20:33:48
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
视频内容理解的研究与实践 立即下载
阿里云高级开发工程师高深在2018云栖大会·上海峰会中做了题为《网络视听规范化时代,视频AI破解直播违规难题》的分享,就视频内容审核、语音内容审核、复审及取证等方面的内容做了深入的分析。 立即下载
高德经典数据库实践案例分享——现实与互联网世界底图 立即下载