一段价值2.4万元的Python代码

简介: 但是有个小伙伴在群里问,有没有什么一夜暴富的方法,这让行哥难以回答,毕竟游戏里的结论是前期积累了资源,就很难再变穷。对应我们的生活世界则是如果有上一代有力的资源支持,也很难变穷。这么想的话,如果上一代没有给予有力的支持,那么最快的暴富方法莫不是


上周行哥发了一篇文章,在里面用游戏案例分析了一下“我们为什么这么穷?”,可谓字字珠玑,每一个游戏案例的观点都深入人心image.png

但是有个小伙伴在群里问,有没有什么一夜暴富的方法,这让行哥难以回答,毕竟游戏里的结论是前期积累了资源,就很难再变穷。对应我们的生活世界则是如果有上一代有力的资源支持,也很难变穷。image.png这么想的话,如果上一代没有给予有力的支持,那么最快的暴富方法莫不是image.png

理智很快敲醒了我,在这个该奋斗的年纪,是真的找不到富婆。。。。image.png

为了解答这位行友,行哥随意在网上搜索了一下,就发现一个小小的商机,希望能给这位行友一些启发

某宝的万能是公认的,也充满了很多零成本的生意。比如我们用掌握的Python语言给别人提供服务,就近乎零成本(只消耗电费和头发)。这不,淘宝上一个小小的PDF转换就有20000人收货,按照挂牌价格计算,价值24000元。如果我们掌握了零成本的转换方法,那么一台顶配外星人是不是到手了。。。image.png

想想就激动,行哥使用了0.0001秒把我之前做过的案例拿出来晒一晒

现在的pdf主要有两种,一种可复制型pdf,这种pdf转换比较简单,直接使用python的pdfminer工具包就可以完成pdf转word、ppt、excel,文件处理不要太方便

另一种是图片型pdf,这种pdf转换比较复杂。上古时代最常用的转换方法就是手打,经过严格训练的打字员,一天内可以转换上百页pdf,不要问行哥是怎么知道的,只是那时候兼职还没有淘宝刷单这回事。后来人工智能火起来,使用OCR+深度学习的技术,图片内识别文字分分钟,虽然速度提升起来但是目前来看大部分转换的准确率还是不如训练有素的打字员。

复制型pdf

这里是将pdf转成word的核心代码,主要使用pdfminer工具包对pdf文件拆分,然后依次转成文本,再拼接和保存文件。一共34行代码,算下来每行代码岂不是价值705元,一种学到就是赚到的感觉。

 

def main():
    fn = open(file_name, 'rb')
    parser = PDFParser(fn)
    doc = PDFDocument()
    parser.set_document(doc)
    doc.set_parser(parser)
    resource = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(resource, laparams=laparams)
    interpreter = PDFPageInterpreter(resource, device)
    for i in doc.get_pages():
        interpreter.process_page(i)
        layout = device.get_result()
        for out in layout:
            if hasattr(out, "get_text"):
                content = out.get_text().replace(u'\xa0', u' ')
                document.add_paragraph(
                    content, style='ListBullet'
                )
            document.save('a' + '.docx')
    print('处理完成')

完整代码可以点击阅读全文在行哥免费的知识星球里下载

图片型pdf

图片型pdf转发可是各家厂商的核心机密,虽然后台也可能包含了训练有素的打字员。目前公开用法是利用tesseract-ocr工具包进行光学文字识别。行哥当年实习也开发过这种版本,对于比较规整字体的转换质量还是蛮高的。image.pngimage.png

如果遇到非常杂乱的格式和字体,这需要大量的数据集去训练和识别。必要的时候可以使用百度提供api来进行转换,百度被称为中国AI的黄埔军校,那转换质量是非常高的。

上图的相关代码也可以点击阅读全文在行哥免费的知识星球里下载,或者在公众号的后台回复【一行06】就可以获得

知乎解决答案

正好昨天看到知乎也上热搜了,里面也提供了很多免费转换的方法。image.png所以行哥悄咪咪的使用上次分享的知乎爬虫软件自动爬取了该问题下的所有答案,可惜没有版权只能自己学习,只能让各位行友去我知识星球里或者后下载这款爬虫工具image.png

但是要知道里面无论提供网站和软件,如果遇到大批量pdf文件转换,都无法实现完完全全的永久免费或者自动化转换,还需要自己手动一个个点点点点点。如果遇到这种重复劳动力,行哥还是建议使用代码run一下就好。

行哥说两句

无论Python还是Java等编程语言,都是一个生产力工具。生产力工具能够产生价值,关键就看我们是如何用这个生产工具为自己产生价值。行哥这里有很多案例,我有故事,你有在看吗?

另外,行哥小声bb一下,下一个小赚钱的机会是“头盔”哦



相关文章
|
12天前
|
机器学习/深度学习 自然语言处理 数据可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
|
1天前
|
缓存 并行计算 Serverless
优化Python代码性能的5个技巧
在日常Python编程中,代码性能的优化是一个重要的议题。本文介绍了5个实用的技巧,帮助你提高Python代码的执行效率,包括使用适当的数据结构、优化循环结构、利用内置函数、使用生成器表达式以及并行化处理。通过这些技巧,你可以更高效地编写Python代码,提升程序的性能和响应速度。
|
2天前
|
Python
探索Python中的装饰器:提升代码灵活性与可维护性
Python中的装饰器是一种强大的工具,可以在不改变原有代码结构的情况下,动态地添加功能或修改函数的行为。本文将深入探讨装饰器的原理、常见用法以及如何利用装饰器提升代码的灵活性和可维护性。
|
2天前
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
|
2天前
|
数据可视化 Python
python中Copula在多元联合分布建模可视化2实例合集|附数据代码
python中Copula在多元联合分布建模可视化2实例合集|附数据代码
|
2天前
|
人工智能 Python
Python中的反对称矩阵:理论、应用与代码实践
Python中的反对称矩阵:理论、应用与代码实践
16 1
|
2天前
|
机器学习/深度学习 存储 算法
Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码
Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码
|
2天前
|
机器学习/深度学习 数据采集 数据可视化
Python众筹项目结果预测:优化后的随机森林分类器可视化|数据代码分享
Python众筹项目结果预测:优化后的随机森林分类器可视化|数据代码分享
|
3天前
|
缓存 开发者 Python
《Python中的装饰器:优雅而强大的代码增强工具》
在现代软件开发中,Python语言的灵活性和简洁性备受推崇。其中,装饰器作为一种强大的代码增强工具,为Python开发者提供了优雅的解决方案。本文将深入探讨装饰器的原理、用法以及实际应用场景,帮助读者更好地理解和运用这一技术。
|
8天前
|
自然语言处理 数据可视化 数据挖掘
数据代码分享|Python对全球Covid-19疫情失业数据相关性、可视化分析
数据代码分享|Python对全球Covid-19疫情失业数据相关性、可视化分析