用Java抓取RSS生成Mobi文件发送到Kindle

简介:

最近写了个小工具,通过抓取RSS生成适合Kindle展示的Mobi格式的文件,并发送到Kindle 个人图书馆,也算是继续“自动化”之旅。

代码前前后后写了个把月,趁着放假期间,决定把它搞定。使用方法什么的就不多说了,项目开源到Github上去了,上面有使用说明

这篇文章简单得聊聊项目本身以及总结的一些问题。

项目简介

首先来看看项目的组织结构图:


大致分为三大部分:

  • core:核心部分,定义了RSS相关的基本数据抽象(base)以及所有流程的接口抽象(contract)
  • component:组件(可选),两个组件,一个是对mobi文件进行strip处理,以很好得控制最终文件的大小,另一个是邮件发送
  • impl:对core以及component的实现。
其他几个部分:util中定义了一些帮助方法,Service是程序的入口,也是各个流程接口方法的衔接与组合调用,resources(不包含在上图中)定义了一大堆各种配置。用Java写程序就是这样,你懂的。

core


base包不必多说,一个RSS源大概可以分解为三个对象:一个Feed包含了N个Entry,每个Entry都包含了文本内容(desc)以及若干个Image。
说说核心流程的抽象:(按照流程顺序说明,不按照图中接口顺序)

AbstractConfigManager

是一个抽象类,维护了项目最核心的配置文件(resources/rtms.properties),并对其中的配置完整性进行检查。

IFeedLinkProvider

要抓取RSS,必须要有RSS Source(RSS URL)。该接口作为Feed link 的 provider 定义了一个方法来获取所有需要抓取的链接:
/**
     * get parsing rss links
     *
     * @return the String array of all links
     */
    String[] getFeedLinks();
 
 

IRSSParser

获取到feed的链接之后,就需要去一个个parse它们,该接口定义了parse方法:
/**
     * parse feed with given urls
     *
     * @param urls the URL Array
     * @return the BaseFeed Array
     */
    BaseFeed[] parse(URL[] urls);

返回生成的Feed对象集合,由于有些RSS源不提供全文输出(只是提供一个摘要,比如看 这里),所以这时候就需要一个全文输出处理,来从给定的URL获取原文

IFullTxtOutput

该接口定义了输出全文的协议:
/**
     * output full text from a entrylink
     *
     * @param entryLink the string of the entry link url
     * @return the full text
     */
    String fullTextFrom(String entryLink);

在parse的过程中,难免会遇到<img />标签,我们在parse时候先对其src属性进行处理,但图片并不在此进行下载,所以需要将其先存起来,在需要下载的时候,在取出来下载,这时,我们需要一个“图片运输器“

IImgTransporter

该接口定义了图片的保存与获取协议:
/**
     * push a img obj to the image store
     *
     * @param img the instance of BaseImage
     */
    public void push(BaseImage img);

    /**
     * get all image objs with the feed
     *
     * @param feed the instance of BaseFeed
     * @return the map of all the images per feed
     */
    public Map<String, BaseImage> getAllImageObjsWithFeed(BaseFeed feed);

由于我们认为一个RSS Feed是一个基准单位(一个mobi文件以一个个feed组合而成)所以图片的获取以feed为单位整取(当然也可以粒度再细一点以feed里每个entry为基准)。

如果不需要额外的功能,我们已经能够生成mobi文件了:

IMobiGenerator

该接口定义了生成mobi需要实现的方法:
/**
     * generate mobi file with a list of feeds
     *
     * @param feeds the List of BaseFeed instances
     * @return return the generated mobi file path
     */
    String generate(List<BaseFeed> feeds);

通过传入一个BaseFeed对象的集合,最终输出mobi文件的全路径即可。
以上这些接口,定义了将RSS生成Mobi文件的最基本的流程,如果需要一些附加功能,可以有选择的实现component package中的一些接口。

component

该package大概提供了三个扩展:

IEntryTransporter

上面在说到IfullTxt的时候,我们通过实现该接口,完成了全文输出。出于效率与性能考虑,我们有必要将最近处理过的feed的一些entry“缓存”起来。这是因为,该项目有可能被构建为daily task,而有些RSS 源并不是每日更新,即便更新过,如果不多,还是会抓取到一些旧的。这时我们会先去查看这些entry是否曾经已被处理过,如果已经处理过,那么就没必要再去处理了(特别是全文输出还是很耗时的),协议:
/**
     * save a entry
     *
     * @param entry the instance of BaseEntry
     */
    void save(BaseEntry entry);

    /**
     * check is entry exists
     *
     * @param entry the instance of BaseEntry
     * @return if exists return true otherwise return false
     */
    boolean entryExists(BaseEntry entry);

    /**
     * get processed entry (the func for cache entry)
     *
     * @param entry the instance of BaseEntry
     * @return return the processed entry
     */
    BaseEntry getProcessedEntry(BaseEntry entry);

    /**
     * get a feed's all entry (processed)
     *
     * @param feed the instance of BaseFeed
     * @return the map of the feed's entries (key is entry's link)
     */
    Map<String, BaseEntry> getAllEntryPerFeed(BaseFeed feed);

IFileStripHandler

由于生成适合kindle的mobi文件,大致的手段是通过amazon提供的kindlegen命令行工具实现,但通过他生成的文件非常大(大到几十兆)。这样非常不便于网络传输(特别是邮件发送),在不影响阅读的情况下,是有办法大幅减小其大小的,所以,我们定义类该接口,供需要的扩展实现:
/**
     * do strip
     * @param originalFilePath the original file path
     * @param newFilePath the new path
     */
    void doStrip(String originalFilePath, String newFilePath);

最后,如果有必要,可以将生成的文件发生到kindle接受的图书馆(一个认可的邮件地址),这时我们需要抽象出,邮件发送的接口:

IMailSender

它定义了发送带附件的邮件接口:
/**
     * send mobi file from path
     * @param filePath the mobi file path
     */
    void sendFrom(String filePath);

impl

该package默认实现了core以及component里所有的接口(既然全都实现了,还抽出接口来干嘛?)。这里,我只是提供了默认实现,抽出接口的原因是为了保证流程的稳定性,从而不必过份关注实现(下面你会看到实现的方式可能并不是唯一的),即使实现变了,也只是某个对象的内部发生改变,不至于扩大影响。

抽象与实现

哪里可能存在变化呢?因为我本机装了redis,所以我对图片对象以及entry对象的存储借助于redis,如果你不熟悉redis你可以更改其他的存储方式。FeedLink我默认存放在一个properties配置文件里,你可以存放在其他数据源内。RSSParser采用的是ROM+jsoup的解析方式,FullTxt 以及 Strip mobi借助于python来实现。。。由于有很多开源库可供选择,所以,如果你对某个库更熟悉,你可以更改它的实现,而不必伤筋动骨。

库与技术点总结

(1)mobi文件生成其实是可以基于html文件的,因而可以定义出固定的templete,填充内容后直接生成即可,这里使用的是freemarker
(2)解析Feed以及对html进行过滤处理使用的是ROM+jsoup
(3)json处理采用gson
(4)全文输出借助于python的两个强大的开源库(feedparser / readability-lxml)。原理大概是解析dom,对某些元素的父元素计算特征值,可参考 这篇文章 以及 这篇文章
(5)mobi文件生成,借助于amazon提供的 for mac平台的kindlegen
(6)邮件发送采用的是javamail
(7)strip减小mobi文件大小也借助于python的实现,通过删除文件内部大量无用的空白等
(8)图片多线程下载,采用的是线程池,这边还有待重新处理

TODO

(1)重新实现多线程图片下载
(2)用node.js 起一个http server或者构建一个linux定时任务,做daily task

具体的使用方法以及后续更新请关注:https://github.com/yanghua/RssToMobiService


原文发布时间为:2014-02-06

本文作者:vinoYang

本文来自云栖社区合作伙伴 CSDN博客,了解相关信息可以关注CSDN博客。
目录
相关文章
|
1月前
|
Java
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
74 9
|
1月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
76 2
|
2月前
|
Java
Java“解析时到达文件末尾”解决
在Java编程中,“解析时到达文件末尾”通常指在读取或处理文件时提前遇到了文件结尾,导致程序无法继续读取所需数据。解决方法包括:确保文件路径正确,检查文件是否完整,使用正确的文件读取模式(如文本或二进制),以及确保读取位置正确。合理设置缓冲区大小和循环条件也能避免此类问题。
490 2
|
2月前
|
Java
利用GraalVM将java文件变成exe可执行文件
这篇文章简明地介绍了如何使用GraalVM将一个简单的Java程序编译成exe可执行文件,首先通过javac命令编译Java文件生成class文件,然后使用native-image命令将class文件转换成独立的exe文件,并展示了如何运行这个exe文件。
101 0
利用GraalVM将java文件变成exe可执行文件
|
16天前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
79 34
|
1月前
|
消息中间件 存储 Java
RocketMQ文件刷盘机制深度解析与Java模拟实现
【11月更文挑战第22天】在现代分布式系统中,消息队列(Message Queue, MQ)作为一种重要的中间件,扮演着连接不同服务、实现异步通信和消息解耦的关键角色。Apache RocketMQ作为一款高性能的分布式消息中间件,广泛应用于实时数据流处理、日志流处理等场景。为了保证消息的可靠性,RocketMQ引入了一种称为“刷盘”的机制,将消息从内存写入到磁盘中,确保消息持久化。本文将从底层原理、业务场景、概念、功能点等方面深入解析RocketMQ的文件刷盘机制,并使用Java模拟实现类似的功能。
41 3
|
1月前
|
Java 测试技术 Maven
Maven clean 提示文件 java.io.IOException
在使用Maven进行项目打包时,遇到了`Failed to delete`错误,尝试手动删除目标文件也失败,提示`java.io.IOException`。经过分析,发现问题是由于`sys-info.log`文件被其他进程占用。解决方法是关闭IDEA和相关Java进程,清理隐藏的Java进程后重新尝试Maven clean操作。最终问题得以解决。总结:遇到此类问题时,可以通过任务管理器清理相关进程或重启电脑来解决。
|
1月前
|
存储 缓存 安全
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见。本文介绍了使用 `File.createTempFile` 方法和自定义创建临时文件的两种方式,详细探讨了它们的使用场景和注意事项,包括数据缓存、文件上传下载和日志记录等。强调了清理临时文件、确保文件名唯一性和合理设置文件权限的重要性。
88 2
|
1月前
|
存储 安全 Java
如何保证 Java 类文件的安全性?
Java类文件的安全性可以通过多种方式保障,如使用数字签名验证类文件的完整性和来源,利用安全管理器和安全策略限制类文件的权限,以及通过加密技术保护类文件在传输过程中的安全。
57 4
|
1月前
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
62 4