上周行哥发了一篇文章,在里面用游戏案例分析了一下“我们为什么这么穷?”,可谓字字珠玑,每一个游戏案例的观点都深入人心
但是有个小伙伴在群里问,有没有什么一夜暴富的方法,这让行哥难以回答,毕竟游戏里的结论是前期积累了资源,就很难再变穷。对应我们的生活世界则是如果有上一代有力的资源支持,也很难变穷。这么想的话,如果上一代没有给予有力的支持,那么最快的暴富方法莫不是
理智很快敲醒了我,在这个该奋斗的年纪,是真的找不到富婆。。。。
为了解答这位行友,行哥随意在网上搜索了一下,就发现一个小小的商机,希望能给这位行友一些启发
某宝的万能是公认的,也充满了很多零成本的生意。比如我们用掌握的Python语言给别人提供服务,就近乎零成本(只消耗电费和头发)。这不,淘宝上一个小小的PDF转换就有20000人收货,按照挂牌价格计算,价值24000元。如果我们掌握了零成本的转换方法,那么一台顶配外星人是不是到手了。。。
想想就激动,行哥使用了0.0001秒把我之前做过的案例拿出来晒一晒
现在的pdf主要有两种,一种可复制型pdf,这种pdf转换比较简单,直接使用python的pdfminer工具包就可以完成pdf转word、ppt、excel,文件处理不要太方便
另一种是图片型pdf,这种pdf转换比较复杂。上古时代最常用的转换方法就是手打,经过严格训练的打字员,一天内可以转换上百页pdf,不要问行哥是怎么知道的,只是那时候兼职还没有淘宝刷单这回事。后来人工智能火起来,使用OCR+深度学习的技术,图片内识别文字分分钟,虽然速度提升起来但是目前来看大部分转换的准确率还是不如训练有素的打字员。
复制型pdf
这里是将pdf转成word的核心代码,主要使用pdfminer工具包对pdf文件拆分,然后依次转成文本,再拼接和保存文件。一共34行代码,算下来每行代码岂不是价值705元,一种学到就是赚到的感觉。
def main(): fn = open(file_name, 'rb') parser = PDFParser(fn) doc = PDFDocument() parser.set_document(doc) doc.set_parser(parser) resource = PDFResourceManager() laparams = LAParams() device = PDFPageAggregator(resource, laparams=laparams) interpreter = PDFPageInterpreter(resource, device) for i in doc.get_pages(): interpreter.process_page(i) layout = device.get_result() for out in layout: if hasattr(out, "get_text"): content = out.get_text().replace(u'\xa0', u' ') document.add_paragraph( content, style='ListBullet' ) document.save('a' + '.docx') print('处理完成')
完整代码可以点击阅读全文在行哥免费的知识星球里下载
图片型pdf
图片型pdf转发可是各家厂商的核心机密,虽然后台也可能包含了训练有素的打字员。目前公开用法是利用tesseract-ocr工具包进行光学文字识别。行哥当年实习也开发过这种版本,对于比较规整字体的转换质量还是蛮高的。
如果遇到非常杂乱的格式和字体,这需要大量的数据集去训练和识别。必要的时候可以使用百度提供api来进行转换,百度被称为中国AI的黄埔军校,那转换质量是非常高的。
上图的相关代码也可以点击阅读全文在行哥免费的知识星球里下载,或者在公众号的后台回复【一行06】就可以获得
知乎解决答案
正好昨天看到知乎也上热搜了,里面也提供了很多免费转换的方法。所以行哥悄咪咪的使用上次分享的知乎爬虫软件自动爬取了该问题下的所有答案,可惜没有版权只能自己学习,只能让各位行友去我知识星球里或者后下载这款爬虫工具
但是要知道里面无论提供网站和软件,如果遇到大批量pdf文件转换,都无法实现完完全全的永久免费或者自动化转换,还需要自己手动一个个点点点点点。如果遇到这种重复劳动力,行哥还是建议使用代码run一下就好。
行哥说两句
无论Python还是Java等编程语言,都是一个生产力工具。生产力工具能够产生价值,关键就看我们是如何用这个生产工具为自己产生价值。行哥这里有很多案例,我有故事,你有在看吗?
另外,行哥小声bb一下,下一个小赚钱的机会是“头盔”哦