天使轮获数百万投资,神箭手从爬虫切入构建大数据应用开发平台

简介:

随着数字化进程的加速,企业越来越重视数据的价值。根据IDC预计,全球大数据市场规模在2019年将达到1870亿美金。其中,企业除了关注自身的经营数据之外,对于外部数据,尤其是与自身息息相关的(如竞品动态、舆情信息等)数据也非常关注。

在获取这些数据时,最常用的手段就是爬虫技术。但传统的爬虫开发难度大,除了需要自己搭建服务器并运维,还需要工程师根据爬取需求编写代码、对接代理服务等等。计算下来,企业平均每月开发和运维成本往往需要上万元。

而猎云网今天带来的“神箭手”则为个人开发者和企业提供了简单便捷的爬虫工具。该项目创始人吴桐2013年硕士毕业于西安交大软件工程专业,毕业后加入谷歌搜索基础设施组,2014年离开谷歌创办壁虎数据恢复项目。

2015年8月,吴桐再度出发创办神箭手,从爬虫切入,希望把谷歌的大数据开发的管理理念带给更多用户。其核心创始团队都是吴桐的大学同窗,从大三时期就与吴桐一起创业。吴桐向猎云网独家透露,神箭手曾于2015年11月获得过来自中路资本的数百万元天使轮融资。

吴桐介绍,神箭手致力于成为一个一站式大数据应用开发平台,旨在通过为客户提供完整的开发架构和套件,降低大数据和AI应用开发的部署难度,实现从数据采集、清洗、训练、导出的完整生命周期。

当然,对于尚在起步阶段的神箭手来说,实现完整数据处理周期尚需时日。不过,该平台已经在第一步的数据采集方面体现出了自己的特点与优势。“爬虫市场”就是其中之一。

为了最大限度降低个人开发者和企业使用爬虫的技术门槛,神箭手团队自行编写了上百个爬虫,使用者无需关注如何设置IP、如何设置验证码,甚至对编程一窍不通的小白用户,也可以直接使用。

image

  神箭手操作界面

据猎云网了解,神箭手提供的爬虫可爬取的数据源囊括社交、电商、生活服务、互金、休闲旅游、汽车交通、医疗健康以及其他等多种分类。包括微博、淘宝、天猫、京东等网站的爬虫,都能在爬虫市场中找到。

值得一提的是,神箭手提供的爬虫目前全部都是团队自行编写。之所以尚未提供第三方开发者编写的爬虫,吴桐认为,爬虫对于代码编写技术要求较高,否则在运行时稳定性将受到影响。

虽然如此,但吴桐强调,现在的神箭手并非仅仅提供傻瓜式爬虫,而是一个开发平台。如果平台提供的爬虫无法满足用户需求,那么有开发实力的用户也可以在神箭手平台上自行编写爬虫并使用,并且平台对于这种用户还会有一定的鼓励。

除爬虫以外,目前平台也提供了诸多API调用。“其实,无论是爬虫还是API,甚至是直接购买数据池,都是用户获取数据的方式。我们希望夯实数据采集的第一步,再为用户提供后续的数据服务。”吴桐说。

在商业模式上,神箭手采用的是销售计算节点(服务器)的方式,每个节点79元,节点越多,爬虫爬取的速度越快。当然,平台也有套餐销售,根据节点数不同分为个人版和企业版。用户购买节点之后,根据爬虫所适用的最低套餐即可使用爬虫。而API则根据调用次数进行收费。

自2015年底产品上线以来,神箭手已积累了超过4万名用户注册使用,其中包括500多家企业套餐付费客户,目前月收入已超过20万元。

在数据采集器市场,其实已有包括八爪鱼这种工具存在。对于细分领域的竞争,吴桐认为,八爪鱼等产品是以软件形式存在,必须本地运行,这在数据爬取和软件更新时就会有所限制。而神箭手则是云服务形式,更灵活,自主性更强。另外其更专注对头部网站的爬取,这也是客户的重点需求。

接下来,吴桐透露,神箭手在解决了第一步数据采集之后,就要向云端机器学习、数据清洗、BI等后续环节迈进。另外,为企业提供私有化部署也是神箭手下一阶段的计划之一。

未来,吴桐希望能够将谷歌的代码管理理念融入神箭手,现在正在进行运行权限管理的研发,在未来实现云协同开发。

目前,该项目正在进行新一轮融资。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
27天前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
34 0
|
28天前
|
数据采集 数据挖掘 Python
使用Python构建简单的Web爬虫:实现网页内容抓取与分析
本文将介绍如何使用Python编写一个简单的Web爬虫,实现对特定网页内容的抓取与分析。通过学习本文,读者将了解到如何利用Python的requests和Beautiful Soup库来获取网页内容,并通过示例演示如何解析HTML结构,提取所需信息。此外,我们还将讨论一些常见的爬虫挑战以及如何避免被网站封禁的策略。
|
1月前
|
数据采集 前端开发 API
从零开始构建网络爬虫:ScrapeKit库详解
从零开始构建网络爬虫:ScrapeKit库详解
|
1月前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
1月前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
16 2
|
1天前
|
分布式计算 监控 数据挖掘
MaxCompute的应用
【5月更文挑战第7天】MaxCompute的应用
19 8
|
2天前
|
数据采集 JavaScript 数据可视化
Node.js爬虫在租房信息监测与分析中的应用
Node.js爬虫在租房信息监测与分析中的应用
|
2天前
|
数据采集 存储 XML
如何利用Python构建高效的Web爬虫
本文将介绍如何使用Python语言以及相关的库和工具,构建一个高效的Web爬虫。通过深入讨论爬虫的基本原理、常用的爬虫框架以及优化技巧,读者将能够了解如何编写可靠、高效的爬虫程序,实现数据的快速获取和处理。
|
9天前
|
存储 运维 监控
|
23天前
|
数据采集 API 数据安全/隐私保护
畅游网络:构建C++网络爬虫的指南
本文介绍如何使用C++和cpprestsdk库构建高效网络爬虫,以抓取知乎热点信息。通过亿牛云爬虫代理服务解决IP限制问题,利用多线程提升数据采集速度。示例代码展示如何配置代理、发送HTTP请求及处理响应,实现多线程抓取。注意替换有效代理服务器参数,并处理异常。
畅游网络:构建C++网络爬虫的指南

热门文章

最新文章