深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

卖什么?卖多少钱?

这些是每一个线上零售卖家都会遇到的问题。在大数据时代开始之前,答案都是基于个人经验做的判断;随着近年数据分析平台纷纷上线,卖家们也渐渐开始接受多维度、不同时间粒度的数据分析服务,包括流量、销量、广告、仓储、配送、售后分析等等,一定程度上提升了运营管理能力。

但作为商家,最核心的两问,依然没有得到简单有效的解答。

所问数据(Asking Data)想以企业级服务数据平台的形式,为线上零售产业提供一款数据分析与预测的引擎,辅助商家进行决策。具体来说,平台的核心功能包括对具体行业、商品、店铺和标签四大维度的分析,以及对潜力爆品的预测——后者,是市场上首次出现的服务。第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

做大数据服务的核心有二,数据源和技术。所问的数据来自全网抓取,但不同于许多大数据分析公司,所问的数据处理分析流程,从去除噪音、识别有效数据的清洗,到多来源多格式数据的转换合并,全部由机器进行,不需要任何人工介入。值得一提的是,包括京东在内的一些电商平台,并没有对外开放的产品销量数据,所问是通过对商品销售的不同维度信息进行抓取和分析推测获得的销量数据。

数据处理后的分析之外,所问最核心的技术是基于长期的产业经验和深度学习算法开发经验、自主研发的回归类预测模型。所问的创始人兼CEO颜鹏说,这个技术不止是国内、就是在全球范围内,现在都是很少见的。据悉,易选品平台对产品销量的预测,准确率在80%-90%。目前,所问已经获得公牛集团这样的付费大客户(以监控的平台和类目维度来收费,具体数额暂不方便透露),以及近300家中小型企业的使用。目前,易选品在免费试用阶段,在市场和产品都更加成熟后,会开始与已经存在的大数据分析平台一样、开始按年收取平台使用费。

深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

平台每天会监控所有销售商品的信息,根据商品在上架之后一段时间内的表现,综合考虑商品本身及行业竞争等多维度数据,通过回归预测算法模型,得出从类目到单品的“潜力指数”(百分制)。指数越高,说明该类商品在未来一段时间成为爆款的可能性就越高。

艾瑞咨询的报告显示,2016年中国电子商务市场交易规模20.2万亿元,其中网络购物市场交易规模达4.7万亿元,较前年增长23.9%,预计在2017年增速为19.1%,总规模达5.6万亿元。根据阿里研究院的报告,在这个大市场中,跨境电商零售的细分市场总规模达7512亿元,其中出口额5032亿元,预计未来五年年均增速约37%,在2020年实现2.16万亿元的出口额。换言之,所问立足于一个4.7万亿的市场,并选择了其中5千亿的细分市场切入。

电商市场上的大数据分析公司并不少,有巨头级别的阿里云市场、京东数据罗盘,也有入场较早、商业化程度非常高的新兴公司如百分点科技。但深耕跨境电商这一细分市场的目前并不多,且竞品的数据服务大多仅限于数据的收集和可视化呈现。颜鹏告诉36氪,所问最大的优势也是壁垒就是技术,因为精准的选品和定价预测,对于深度学习算法开发的技术门槛非常高,且需要对电商市场独到的理解和判断,这些是目前市面上没有公司可以做到的。哪怕在较为成熟的海外市场,能够实现高精度回归预测的,也只有为数不多的公司——其中包括颜鹏曾经供职的3M公司。

深耕大数据市场,所问数据打造深度学习数据分析与预测引擎

中国跨境电商零售市场规模及年均增速

所问数据创始人兼CEO颜鹏,博士毕业于美国North Dakota State University,曾供职于美国3M、IBM等消费公司,在大数据挖掘和分布式计算有多年经验,并对消费行业非常了解。创始人兼CTO丁圣超,是中科院计算所计算机博士、美国加州大学圣地亚哥分校博士后,曾从事基因表达水平预测的研究。团队现在共有26人,其中19人为技术人员。

公司近期计划开始A轮融资。融资将主要用于团队在技术和市场方面人才的扩充。此前,公司曾获九合创投数百万的天使轮融资,和洪泰领投的千万级Pre-A轮融资。

卖什么?卖多少钱?

这些是每一个线上零售卖家都会遇到的问题。在大数据时代开始之前,答案都是基于个人经验做的判断;随着近年数据分析平台纷纷上线,卖家们也渐渐开始接受多维度、不同时间粒度的数据分析服务,包括流量、销量、广告、仓储、配送、售后分析等等,一定程度上提升了运营管理能力。

但作为商家,最核心的两问,依然没有得到简单有效的解答。

所问数据(Asking Data)想以企业级服务数据平台的形式,为线上零售产业提供一款数据分析与预测的引擎,辅助商家进行决策。具体来说,平台的核心功能包括对具体行业、商品、店铺和标签四大维度的分析,以及对潜力爆品的预测——后者,是市场上首次出现的服务。第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

第一个上线的平台,是对美国跨境电商Wish全品类商品进行数据分析的易选品。

做大数据服务的核心有二,数据源和技术。所问的数据来自全网抓取,但不同于许多大数据分析公司,所问的数据处理分析流程,从去除噪音、识别有效数据的清洗,到多来源多格式数据的转换合并,全部由机器进行,不需要任何人工介入。值得一提的是,包括京东在内的一些电商平台,并没有对外开放的产品销量数据,所问是通过对商品销售的不同维度信息进行抓取和分析推测获得的销量数据。

数据处理后的分析之外,所问最核心的技术是基于长期的产业经验和深度学习算法开发经验、自主研发的回归类预测模型。所问的创始人兼CEO颜鹏说,这个技术不止是国内、就是在全球范围内,现在都是很少见的。据悉,易选品平台对产品销量的预测,准确率在80%-90%。目前,所问已经获得公牛集团这样的付费大客户(以监控的平台和类目维度来收费,具体数额暂不方便透露),以及近300家中小型企业的使用。目前,易选品在免费试用阶段,在市场和产品都更加成熟后,会开始与已经存在的大数据分析平台一样、开始按年收取平台使用费。

平台每天会监控所有销售商品的信息,根据商品在上架之后一段时间内的表现,综合考虑商品本身及行业竞争等多维度数据,通过回归预测算法模型,得出从类目到单品的“潜力指数”(百分制)。指数越高,说明该类商品在未来一段时间成为爆款的可能性就越高。

艾瑞咨询的报告显示,2016年中国电子商务市场交易规模20.2万亿元,其中网络购物市场交易规模达4.7万亿元,较前年增长23.9%,预计在2017年增速为19.1%,总规模达5.6万亿元。根据阿里研究院的报告,在这个大市场中,跨境电商零售的细分市场总规模达7512亿元,其中出口额5032亿元,预计未来五年年均增速约37%,在2020年实现2.16万亿元的出口额。换言之,所问立足于一个4.7万亿的市场,并选择了其中5千亿的细分市场切入。

电商市场上的大数据分析公司并不少,有巨头级别的阿里云市场、京东数据罗盘,也有入场较早、商业化程度非常高的新兴公司如百分点科技。但深耕跨境电商这一细分市场的目前并不多,且竞品的数据服务大多仅限于数据的收集和可视化呈现。颜鹏告诉36氪,所问最大的优势也是壁垒就是技术,因为精准的选品和定价预测,对于深度学习算法开发的技术门槛非常高,且需要对电商市场独到的理解和判断,这些是目前市面上没有公司可以做到的。哪怕在较为成熟的海外市场,能够实现高精度回归预测的,也只有为数不多的公司——其中包括颜鹏曾经供职的3M公司。

中国跨境电商零售市场规模及年均增速

所问数据创始人兼CEO颜鹏,博士毕业于美国North Dakota State University,曾供职于美国3M、IBM等消费公司,在大数据挖掘和分布式计算有多年经验,并对消费行业非常了解。创始人兼CTO丁圣超,是中科院计算所计算机博士、美国加州大学圣地亚哥分校博士后,曾从事基因表达水平预测的研究。团队现在共有26人,其中19人为技术人员。

公司近期计划开始A轮融资。融资将主要用于团队在技术和市场方面人才的扩充。此前,公司曾获九合创投数百万的天使轮融资,和洪泰领投的千万级Pre-A轮融资。 


  

本文转自d1net(转载)


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
机器学习/深度学习 搜索推荐 算法
大数据与金融科技:革新金融行业的动力引擎
大数据与金融科技:革新金融行业的动力引擎
39 0
大数据与金融科技:革新金融行业的动力引擎
|
10天前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
2月前
|
SQL 存储 大数据
Flink 基础详解:大数据处理的强大引擎
Apache Flink 是一个分布式流批一体化的开源平台,专为大规模数据处理设计。它支持实时流处理和批处理,具有高吞吐量、低延迟特性。Flink 提供统一的编程抽象,简化大数据应用开发,并在流处理方面表现卓越,广泛应用于实时监控、金融交易分析等场景。其架构包括 JobManager、TaskManager 和 Client,支持并行度、水位线、时间语义等基础属性。Flink 还提供了丰富的算子、状态管理和容错机制,如检查点和 Savepoint,确保作业的可靠性和一致性。此外,Flink 支持 SQL 查询和 CDC 功能,实现实时数据捕获与同步,广泛应用于数据仓库和实时数据分析领域。
313 32
|
2月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
254 92
|
3月前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
83 4
|
3月前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
314 15
|
3月前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
1085 8
|
3月前
|
运维 监控 安全
公司监控软件:SAS 数据分析引擎驱动网络异常精准检测
在数字化商业环境中,企业网络系统面临复杂威胁。SAS 数据分析引擎凭借高效处理能力,成为网络异常检测的关键技术。通过统计分析、时间序列分析等方法,SAS 帮助企业及时发现并处理异常流量,确保网络安全和业务连续性。
73 11
|
4月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
5月前
|
存储 数据采集 分布式计算
大数据技术:开启智能时代的新引擎
【10月更文挑战第5天】大数据技术:开启智能时代的新引擎