深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

卖什么?卖多少钱?

这些是每一个线上零售卖家都会遇到的问题。在大数据时代开始之前,答案都是基于个人经验做的判断;随着近年数据分析平台纷纷上线,卖家们也渐渐开始接受多维度、不同时间粒度的数据分析服务,包括流量、销量、广告、仓储、配送、售后分析等等,一定程度上提升了运营管理能力。

但作为商家,最核心的两问,依然没有得到简单有效的解答。

所问数据(Asking Data)想以企业级服务数据平台的形式,为线上零售产业提供一款数据分析与预测的引擎,辅助商家进行决策。具体来说,平台的核心功能包括对具体行业、商品、店铺和标签四大维度的分析,以及对潜力爆品的预测——后者,是市场上首次出现的服务。第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

做大数据服务的核心有二,数据源和技术。所问的数据来自全网抓取,但不同于许多大数据分析公司,所问的数据处理分析流程,从去除噪音、识别有效数据的清洗,到多来源多格式数据的转换合并,全部由机器进行,不需要任何人工介入。值得一提的是,包括京东在内的一些电商平台,并没有对外开放的产品销量数据,所问是通过对商品销售的不同维度信息进行抓取和分析推测获得的销量数据。

数据处理后的分析之外,所问最核心的技术是基于长期的产业经验和深度学习算法开发经验、自主研发的回归类预测模型。所问的创始人兼CEO颜鹏说,这个技术不止是国内、就是在全球范围内,现在都是很少见的。据悉,易选品平台对产品销量的预测,准确率在80%-90%。目前,所问已经获得公牛集团这样的付费大客户(以监控的平台和类目维度来收费,具体数额暂不方便透露),以及近300家中小型企业的使用。目前,易选品在免费试用阶段,在市场和产品都更加成熟后,会开始与已经存在的大数据分析平台一样、开始按年收取平台使用费。

深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

平台每天会监控所有销售商品的信息,根据商品在上架之后一段时间内的表现,综合考虑商品本身及行业竞争等多维度数据,通过回归预测算法模型,得出从类目到单品的“潜力指数”(百分制)。指数越高,说明该类商品在未来一段时间成为爆款的可能性就越高。

艾瑞咨询的报告显示,2016年中国电子商务市场交易规模20.2万亿元,其中网络购物市场交易规模达4.7万亿元,较前年增长23.9%,预计在2017年增速为19.1%,总规模达5.6万亿元。根据阿里研究院的报告,在这个大市场中,跨境电商零售的细分市场总规模达7512亿元,其中出口额5032亿元,预计未来五年年均增速约37%,在2020年实现2.16万亿元的出口额。换言之,所问立足于一个4.7万亿的市场,并选择了其中5千亿的细分市场切入。

电商市场上的大数据分析公司并不少,有巨头级别的阿里云市场、京东数据罗盘,也有入场较早、商业化程度非常高的新兴公司如百分点科技。但深耕跨境电商这一细分市场的目前并不多,且竞品的数据服务大多仅限于数据的收集和可视化呈现。颜鹏告诉36氪,所问最大的优势也是壁垒就是技术,因为精准的选品和定价预测,对于深度学习算法开发的技术门槛非常高,且需要对电商市场独到的理解和判断,这些是目前市面上没有公司可以做到的。哪怕在较为成熟的海外市场,能够实现高精度回归预测的,也只有为数不多的公司——其中包括颜鹏曾经供职的3M公司。

深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

中国跨境电商零售市场规模及年均增速

所问数据创始人兼CEO颜鹏,博士毕业于美国North Dakota State University,曾供职于美国3M、IBM等消费公司,在大数据挖掘和分布式计算有多年经验,并对消费行业非常了解。创始人兼CTO丁圣超,是中科院计算所计算机博士、美国加州大学圣地亚哥分校博士后,曾从事基因表达水平预测的研究。团队现在共有26人,其中19人为技术人员。

公司近期计划开始A轮融资。融资将主要用于团队在技术和市场方面人才的扩充。此前,公司曾获九合创投数百万的天使轮融资,和洪泰领投的千万级Pre-A轮融资。

卖什么?卖多少钱?

这些是每一个线上零售卖家都会遇到的问题。在大数据时代开始之前,答案都是基于个人经验做的判断;随着近年数据分析平台纷纷上线,卖家们也渐渐开始接受多维度、不同时间粒度的数据分析服务,包括流量、销量、广告、仓储、配送、售后分析等等,一定程度上提升了运营管理能力。

但作为商家,最核心的两问,依然没有得到简单有效的解答。

所问数据(Asking Data)想以企业级服务数据平台的形式,为线上零售产业提供一款数据分析与预测的引擎,辅助商家进行决策。具体来说,平台的核心功能包括对具体行业、商品、店铺和标签四大维度的分析,以及对潜力爆品的预测——后者,是市场上首次出现的服务。第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

做大数据服务的核心有二,数据源和技术。所问的数据来自全网抓取,但不同于许多大数据分析公司,所问的数据处理分析流程,从去除噪音、识别有效数据的清洗,到多来源多格式数据的转换合并,全部由机器进行,不需要任何人工介入。值得一提的是,包括京东在内的一些电商平台,并没有对外开放的产品销量数据,所问是通过对商品销售的不同维度信息进行抓取和分析推测获得的销量数据。

数据处理后的分析之外,所问最核心的技术是基于长期的产业经验和深度学习算法开发经验、自主研发的回归类预测模型。所问的创始人兼CEO颜鹏说,这个技术不止是国内、就是在全球范围内,现在都是很少见的。据悉,易选品平台对产品销量的预测,准确率在80%-90%。目前,所问已经获得公牛集团这样的付费大客户(以监控的平台和类目维度来收费,具体数额暂不方便透露),以及近300家中小型企业的使用。目前,易选品在免费试用阶段,在市场和产品都更加成熟后,会开始与已经存在的大数据分析平台一样、开始按年收取平台使用费。

平台每天会监控所有销售商品的信息,根据商品在上架之后一段时间内的表现,综合考虑商品本身及行业竞争等多维度数据,通过回归预测算法模型,得出从类目到单品的“潜力指数”(百分制)。指数越高,说明该类商品在未来一段时间成为爆款的可能性就越高。

艾瑞咨询的报告显示,2016年中国电子商务市场交易规模20.2万亿元,其中网络购物市场交易规模达4.7万亿元,较前年增长23.9%,预计在2017年增速为19.1%,总规模达5.6万亿元。根据阿里研究院的报告,在这个大市场中,跨境电商零售的细分市场总规模达7512亿元,其中出口额5032亿元,预计未来五年年均增速约37%,在2020年实现2.16万亿元的出口额。换言之,所问立足于一个4.7万亿的市场,并选择了其中5千亿的细分市场切入。

电商市场上的大数据分析公司并不少,有巨头级别的阿里云市场、京东数据罗盘,也有入场较早、商业化程度非常高的新兴公司如百分点科技。但深耕跨境电商这一细分市场的目前并不多,且竞品的数据服务大多仅限于数据的收集和可视化呈现。颜鹏告诉36氪,所问最大的优势也是壁垒就是技术,因为精准的选品和定价预测,对于深度学习算法开发的技术门槛非常高,且需要对电商市场独到的理解和判断,这些是目前市面上没有公司可以做到的。哪怕在较为成熟的海外市场,能够实现高精度回归预测的,也只有为数不多的公司——其中包括颜鹏曾经供职的3M公司。

中国跨境电商零售市场规模及年均增速

所问数据创始人兼CEO颜鹏,博士毕业于美国North Dakota State University,曾供职于美国3M、IBM等消费公司,在大数据挖掘和分布式计算有多年经验,并对消费行业非常了解。创始人兼CTO丁圣超,是中科院计算所计算机博士、美国加州大学圣地亚哥分校博士后,曾从事基因表达水平预测的研究。团队现在共有26人,其中19人为技术人员。

公司近期计划开始A轮融资。融资将主要用于团队在技术和市场方面人才的扩充。此前,公司曾获九合创投数百万的天使轮融资,和洪泰领投的千万级Pre-A轮融资。 


  

本文转自d1net(转载)


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
|
8天前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之数据删除之后,是否支持回滚
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之同样的表和数据,在PolarDB执行LEFT JOIN查询可以得到结果,但在MaxCompute中却返回为空,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
9天前
|
分布式计算 DataWorks API
DataWorks产品使用合集之使用REST API Reader往ODPS写数据时,如何获取入库时间
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
8天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之整库离线同步至MC的配置中,是否可以清除原表所有分区数据的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之如何将数据映射成Holo表的语句
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7天前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
7天前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之使用sql查询一个表的分区数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
13天前
|
机器学习/深度学习 PyTorch 算法框架/工具
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
图神经网络是一类用于处理图结构数据的神经网络。与传统的深度学习模型(如卷积神经网络CNN和循环神经网络RNN)不同,
|
8天前
|
数据采集 分布式计算 大数据
MaxCompute产品使用合集之数据集成中进行数据抽取时,是否可以定义使用和源数据库一样的字符集进行抽取
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。