数据新闻报道必备的六款开源工具

简介:
文章讲的是 数据新闻报道必备的六款开源工具上世纪八十年代在新闻院校里求学时,为故事收集数据意味着需要拿出大量时间研讨纸质文档或者观看缩微 胶片

  但随着时间推移,如今的状况已经天翻地覆。尽管印刷资料仍然有其独特作用,但越来越多的信息开始以网络为载体呈现在新闻工作者面前。在技术成果的有力推动下,数据新闻迎来了辉煌的繁盛时期。从基本概念上讲,数据新闻是指利用人口普查数据、犯罪统计以及其它统计结果了解并讲述事件的活动。

盘点:面向数据新闻领域的六款开源工具

  目前市面上存在大量强劲但却价格不菲的工具,足以帮助记者同志们收集、精简、分析事件数据并以可视化方式呈现结果。但也有不少规模较小或者预算紧张的新闻机构甚至是独立记者无力承担这些工具。不过没必要担心,上帝关上一道门的同时、总会为我们留下一扇窗。

  在开源阵营中,同时存在着不少足以帮助数据记者们高效快捷完成日常任务的优秀工具。在今天的文章中,我们将着眼于其中的六款佼佼者,看看它们如何切实帮助数据记者获得自己需要的信息。

  数据获取

  记者们能够在网络上找到的数据大多数能够以电子表格或者CSV、PDF文件的形式进行下载。但也有不少信息内嵌于网页当中。相对于手动复制并粘贴这些信息,大多数数据记者不约而同地选择了直接保存页面。这种处理方式实际上是利用自动化工具获取内嵌于网页当中的信息,并将结果保存为HTML表格形式。

  如果大家或者所在企业中的其他同事对技术充满好奇,那么Scrapy(官方网站:http://scrapy.org/)应该会成为一款理想的工具。Scrapy利用Python编写而成,属于一款命令行工具,能够快速从网络当中提取结构化数据。Scrapy在安装与设置方面难度比较高,但一旦投付运行、大家就能够充分享受它所带来的多种便利功能。精通Python的程序员还可以对这些功能进行快速扩展。

  电子表格可以说是数据记者们不可或缺的基本工具之一。在开源领域,LibreOffice Calc(官方网站:http://www.libreoffice.org/discover/calc/)可算应用范围最广的电子表格编辑工具了。Calc的作用并不限于查看并修改数据,其网页查询导入过滤器允许大家将Calc指向特定网页,并提取包含于其表格中的数据甚至页面内的全部表格。尽管它在处理速度与效率上无法与Scrapy相提并论,但Calc仍然能够很好地完成我们交给它的任务。

  处理PDF文档

  也许是无心之举、也许是有意为之,目前网络上有不少数据都以PDF文件的形式存在。事实上,大多数PDF文档都包含着重要的有价值信息。如果大家在工作中处理过这类文档,就会意识到从中提取数据有多么困难。

  这时候就轮到DocHive出场了,这款工具由Raleigh Public Record开发,专门用于从PDF文档中提取数据。DocHive能够根据PDF的现有内容生成扫描文档。它会对PDF进行分析,将其划分成多个细小片段,而后利用光学字符识别技术读取其中的内容并将文本信息整理成CSV文件。感兴趣的朋友可以点击此处了解更多关于DocHive的细节信息。

  Tabula(官方网站:http://tabula.nerdpower.org/)与DocHive比较相似。它的设计目的在于获取PDF当中的表格信息并将内容转化为CSV文件或者微软Excel电子表格。大家需要做的只是在PDF中找到需要的表格并加以选定,Tabula会自动完成后续工作。其执行速度很快,效率也相当高。

  数据整理

  通常情况下,大家提取到的数据当中可能包含拼写与格式错误或者字符编码问题,这会直接导致数据信息变得不一致且无法正常使用——这时候就需要数据整理工具出场了。

  如果大家需要处理的数据集规模较小,其中只包含几百行信息,那么完全可以使用LibreOffice Calc配合人工检查的方式完成整理。但如果大家面对的数据集规模庞大,那么人为处理将成为漫长、缓慢而且效率低下的痛苦过程。

  下面请出OpenRefine(官方网站:http://openrefine.org/)。它能自动对数据内容进行修正与整理。OpenRefine可以实现数据排序、自动查找重复条目并完成数据记录。OpenRefine的真正能力体现在facets身上。Facets类似于一款电子表格过滤器,能够轻松找出其中的空白单元格与重复数据,并掌握特定数值在数据中的出现频率。

  以上还仅仅是OpenRefine工具的一小部分功能。感兴趣的朋友可以点击此处查看官方说明文档,从而了解更多与OpenRefine相关的细节信息。

  数据可视化处理

  获取到数据之后,编写新闻报道就变得非常顺畅易行了。不过如果大家需要对数据内容加以汇总、沟通与理解,那么可视化处理同样不可或缺。维基百科对信息图(即infographic概念)的重要意义与作用进行了深入阐述,大家不妨找机会读读看。

  要想创建出行之有效的可视化成果,大家不一定要拥有出色的图形设计能力。如果我们的实际需求不太复杂,那么Data Wrapper(官方网站:https://datawrapper.de/)已经足以满足大家的对可视化的期望。这是一款在线工具,能够将可视化成果创建任务分成四步来进行:从电子表格中复制数据、对数据加以描述、选择需要的图像类型、最后创建图像。Data Wrapper当中提供的可选图像类型算不上丰富,但整个操作过程极为简单。

  很明显,我们发布的这份数据新闻开源工具清单还远称不上全面。不过其中提到的各类选项完全能够为预算紧张的新闻单位或者独立单干的新闻工作者提供坚实的业务平台,帮助他们利用数据勾勒出报道思路并最终构建起完善的新闻稿件。


作者:核子可乐 编译

来源:IT168

原文链接:数据新闻报道必备的六款开源工具

相关文章
|
Web App开发 移动开发 前端开发
重磅推荐六款优秀的开源协作编辑工具
重磅推荐六款优秀的开源协作编辑工具
2500 0
重磅推荐六款优秀的开源协作编辑工具
|
Web App开发 前端开发 数据安全/隐私保护
|
21天前
|
数据可视化 项目管理 UED
有哪些免费的设计协作工具?推荐六款实用工具
设计协作工具在跨团队合作和远程办公中发挥着重要作用,能打破沟通壁垒,促进实时交流与创意共享。文中介绍了六款实用工具:板栗看板、Pixso、Figma、Invision、Miro和Trello,它们各具特色,支持从项目管理到设计协作的多种需求。未来,这些工具将朝着功能集成化、智能化辅助、跨平台兼容性和增强第三方集成等方向发展,以提供更好的用户体验。
有哪些免费的设计协作工具?推荐六款实用工具
|
1月前
|
分布式计算 Hadoop 数据挖掘
6个常用大数据分析工具集锦
6个常用大数据分析工具集锦
50 0
|
3月前
|
数据采集 网络协议 安全
|
存储 人工智能 安全
鲲鹏系列五: DevKit开发全系列工具技术要点总结
摩尔定律发展趋势的逐渐放缓,让算力和性能陷入一系列发展瓶颈,市场对创新架构的需求日益加深,计算平台的创新之战一触即发
697 0
鲲鹏系列五: DevKit开发全系列工具技术要点总结
|
数据可视化 JavaScript 前端开发
实用的大数据可视化工具集推荐
推荐一些简单的,日常工作能实际应用,或者个人学习数据分析、可视化有必要的工具。 希望大家能真的用起来! 纯可视化图表生成类——适合开发,工程师 Echart 一个纯Javascript的数据可视化库,百度的产品,常应用于软件产品开发或网页的统计图表模块。可在Web端高度定制可视化图表,图表种类多,动态可视化效,各类图表各类形式都完全开源免费。能处理大数据量和3D绘图也不逊色,据说结合百度地图的使用很出色。
实用的大数据可视化工具集推荐
|
Web App开发 文字识别 Java
压箱底的10款在线工具平台
我是JavaPub,《最少必要面试题》已在更新中。我是JavaPub,《最少必要面试题》已在更新中。我是JavaPub,《最少必要面试题》已在更新中。我是JavaPub,《最少必要面试题》已在更新中。我是JavaPub,《最少必要面试题》已在更新中。我是JavaPub,《最少必要面试题》已在更新中。
183 0
压箱底的10款在线工具平台
|
Java 测试技术 Apache
五款资深高效的Web性能测试工具
五款资深高效的Web性能测试工具
243 0
|
移动开发 weex atlas
阿里宣布Atlas开源:安卓客户端容器化框架,大规模团队移动开发利器
手机淘宝安卓客户端容器化框架Atlas正式宣布开源,Atlas由阿里巴巴移动团队自研,以容器化思路解决大规模团队协作问题,实现并行开发、快速迭代和动态部署,适用于Android 4.x以上系统版本的大小型App开发。
4995 0