美国数据分析科学家带你看看大数据的未来

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

ZD至顶网CIO与应用频道 10月08日 评论消息:从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间。现在再也没有企业怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力。但是,即使17年过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化。

从概念到实用、从结构化数据分析到非结构化数据分析,大数据分析技术在不断地进化。虽然国内仍然在关注舆情分析,但是记者注意到,在美国,大数据分析的研究已经进入到了一个全新的阶段,“预测分析”技术成为最具有代表性的未来技术方向。

那么,“预测分析”技术和传统的大数据分析有什么不同?记者就此采访了美国数据分析科学家、前北卡大学夏洛特分校助理敎授、夏洛特视觉中心主任以及非结构化数据智能分析平台Taste Analytics的CEO,Derek Wang(汪晓宇)博士。

大数据行业爆发,现在的技术不够用了

汪晓宇博士正好经历了整个大数据产业爆发的全过程。他和记者回忆说,在2010年的时候,来他们夏洛特视觉中心进行交流的还仅仅是大公司的数据硏究员,2011年已经变成了公司的主任,而到了2012年,来的几乎全是CIO和CTO们了。他们甚至还为企业开了一门数据分析的进修课程,讲座虽然只有两天,但注册学费几千美金,学员们全都是来自国内各大公司的资深高管。

从这可以看出,在这个数据时代,中美都在用尽一切办法实现数据上领先的概念和追求。而在这技术飞速发展的几年间,数据本身呈现出了不少新的特点,市场也相应地对大数据分析技术提出了新要求。

首先,数据点越来越多,也越来越碎片化。

在汪晓宇博士看来,大数据时代就是人的时代,数据形态越来越丰富和多样。除去社交网站等传统数据点以外,新形态的数据点也已经出现,比如Airbnb和Uber这种O2O服务。如果再看远一点,随着可穿戴设备、物联网等先进设备和个人的信息结合起来,随时随地产生和收集数据更加成为可能。

在这样的情况下,每个人随时随地的“情绪”和“状态”这些都会成为商家必须要重视的数据源。

与此相对应的,非结构化数据分析将越来越重要。而非结构化数据的模块化更加灵敏,不是传统的单一解决方案可以做到的。这导致人们在进行大数据分析时使用的工具将更加细化,利用垂直创新的工具进行非常纵深的研究将成为主流。

其次,大数据分析技术成为了决定社会服务效率的关键。

有报道指出,随着信息技术的发展,包括公共服务、物流等在内的人们衣食住行的服务会纷纷电子化,虚拟世界和物理世界的边界将进一步模糊。这个大的产业背景一旦形成,大数据分析能力就将成为整个产业服务最关键的竞争力。

这样就意味着,大数据分析工具应该越来越实用化。汪晓宇博士介绍说,在面对新的技术和工具时,美国企业高层都会迅速做出决断,考虑怎么把数据分析和现有业务进行快速整合。他举例说,在他们和美国一家大型银行合作时,对方的CIO就可以迅速做出反应,和他们探讨应该怎么把他们开发的创新型非结构化数据分析技术应用到自家银行某一个产品中去。

决定下一代大数据产业的新技术:“预测分析”

在这样的数据特点和市场要求下,中国和美国各大公司和科研中心都在大力投入,研发下一代数据分析技术。但是,在这方面,美国还是有着3-5年时间的领先。

根据汪晓宇博士的分析,国内在科研上的眼光很高,水平层次力度都在,但是商业化不行,研发出来转到应用上和美国有一定差距。中国大部分公司对于大数据分析的概念还停留在“舆情分析”的阶段,但是美国已经跨越“舆情分析”和“情感分析”,进入到了“预测分析”阶段。

由汪晓宇博士一手打造的Taste Analytics团队,就在进行“预测分析”技术的研发。它摆脱了传统的“舆情分析”和“情感分析”的框架,更进一步,把人们在社交网站和其他平台上产生的数据都收集起来,进行实时、全面地分析,帮助企业建立用户的立体形象,了解他们的品味和喜恶,从而提供预测性地判断。

这听来似乎和传统的“推荐系统”、类Clickstream分析有些类似,但是实际上完全不同。

首先,传统的“推荐系统”会需要一个很长的建立过程,也就说,它需要很多强相关的、相似的历史数据,才有可能实现推荐功能。比如它只能根据你买电饭锅的行为,才能向你推荐其他厨具。

但是企业怎么能在一开始就知道,顾客想要买电饭锅呢?这就是“预测分析”的强大之处。它不需要这样的历史数据,而是直接通过人们在社交网络上的留言和在各大平台上留下的信息,来进行预测。也就是说,当你在社交网络上留下类似“好想在家做饭”的状态,系统就有可能已经知道你想买厨具了。

汪晓宇博士举例说,“预测分析”技术发展成熟的话,就会非常接近美国科幻电影《少数派报告》里的情景——它会根据你在网络留下的痕迹,来理解你的性格、行为、情绪,来建立一个随时更新的、立体的形象。无论是HR、企业、客服、公共机构,都可以根据这些信息来提供真正的前瞻性、个性化的服务。

其次,Clickstream无法解决冷启动的问题,而且很难精准到个人、到细节。

Clickstream分析技术的实现,是通过不同的cookie,来追踪人们的点击,它无法解决的是冷启动过程中数据的缺乏。比如你第一次登陆优酷,没有任何观看记录,系统应该怎么进行推荐呢?而且,人们的误点击操作很有可能就被系统追踪下来,进行了错误的分析。

但是这对于“预测分析”技术就不是问题。通过对各大社交平台上的多重语义分析和叠加验证,一个人的具体形象已经建立起来:这个人比较保守,不喜欢暴力,最近正在谈恋爱……那么这时,向他推荐浪漫喜剧就会非常对味。

“我们在做的,就是在集合的范围上进行分析。”汪晓宇博士说,“以前的技术是告诉你们人们在‘说什么’,现在我们已经进化到人们在行动之前‘有什么感觉’。这个核心技术的突破,就能实现对于整个数据分析市场的革新变化。”

再次,“预测分析”比起传统的大数据分析方法,可以更好地实现人机互动。

尽管人工智能非常火热,但是汪晓宇博士仍然指出了这项技术的局限性:它的可控性很差,没有依靠人的能动力。在他看来,大数据分析应该更好地利用人机互动的机制,来发挥最大功用。

汪晓宇博士介绍说,以前的数据分析技术,机器只能做到一半,到后面的时候还需要人来负责数据输入。但是现在他们在研究的“预测分析”技术,可以把大范围的用户数据总结集成在一起,自动给出结果。人和机器的互动,将主要在于洞察内涵、提供反馈,让机器知道人的倾向。这就是新型的人机互动先进所在。

“比如说,某个产品本来定位年轻人,但是机器通过收集数据进行分析,发现它在中年人之间更受欢迎,那么人就可以来调整产品的市场定位,做出加大在中年人群体中加大宣传的决策。这就是非常典型的人机互动。”汪晓宇博士说。

中国为什么没有出现“预测分析”技术?

作为美国最前沿的大数据分析技术,“预测分析”仍然处在研发的早期阶段,各家公司都在发力,想要在这个方向上取得领先地位,技术挑战仍然非常大。

预测分析最大的难度在于精准度。汪晓宇博士说,精准度越高,系统就越能把人的性格全面呈现出来,而且会在不同时间地点下进行分析,做出一个高维的性格理解。要实现这个精准度,光是数据挖掘方面就会有很大挑战,而且在面向不同客户时,比如企业、HR、公共服务等,还要把影响他们的特征分别提取出来,这又把难度上升了一个层次。

目前,汪晓宇博士已经在带领Taste Analytics团队在打造这样的“预测分析”系统,而且,他透露,目前他们向特定的几个企业提供了试用版本;而他们提供的非结构化数据分析服务,也就是“预测分析”的基础,已经被6家福布斯全球500强公司以及多家美国主流企业使用,并通过实践“实时分析”、“数据驱动”(Data-driven)、“人机互动”等最新的数据分析理念,为新的“预测分析”系统提供研究基础和进一步的反馈。

“美国市场上现在领先的数据分析公司,都只精专一点。”汪晓宇博士说,“这也是行业进化到一定程度的结果,因为其实每一个环节都很难,没有一个数据分析公司是可以把所有的都做完;但是反过来,精细化研究才可以激发更多创新。”

反观中国市场,仍然在流行SAP、SAS这类的整体解决方案。虽然这些方案可以覆盖到数据分析的基本方面,但是却失去了对数据的深入挖掘能力,也就错失了数据分析的新机会,进一步来说,就很难诞生类似“预测分析”这样领先的研究。

“中国企业也应当大胆尝试新工具。如果总是寻求旧的解决方案,那么企业将无法真正挖掘出数据的价值。”汪晓宇博士说,“到时候,不仅是预测分析,中美在大数据分析技术和商业应用上的整体差异还将进一步扩大。”

原文发布时间为:2015年10月8日
本文作者:硅星闻
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
58 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
17天前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
38 6
|
2月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
大数据环境下的房地产数据分析与预测研究的设计与实现
|
2月前
|
Java Spring 安全
Spring 框架邂逅 OAuth2:解锁现代应用安全认证的秘密武器,你准备好迎接变革了吗?
【8月更文挑战第31天】现代化应用的安全性至关重要,OAuth2 作为实现认证和授权的标准协议之一,被广泛采用。Spring 框架通过 Spring Security 提供了强大的 OAuth2 支持,简化了集成过程。本文将通过问答形式详细介绍如何在 Spring 应用中集成 OAuth2,包括 OAuth2 的基本概念、集成步骤及资源服务器保护方法。首先,需要在项目中添加 `spring-security-oauth2-client` 和 `spring-security-oauth2-resource-server` 依赖。
42 0
|
2月前
|
消息中间件 分布式计算 Kafka
MaxCompute 在实时数据分析中的角色
【8月更文第31天】随着大数据应用场景的不断扩展,对数据处理速度的要求越来越高,传统的批处理模式已经难以满足某些业务对实时性的需求。在这种背景下,实时数据处理成为了大数据领域的研究热点之一。阿里云的 MaxCompute 虽然主要用于离线数据处理,但通过与其他实时流处理系统(如 Apache Flink 或 Kafka Streams)的集成,也可以参与到实时数据分析中。本文将探讨 MaxCompute 在实时数据分析中的角色,并介绍如何将 MaxCompute 与 Flink 结合使用。
52 0
|
2月前
|
消息中间件 数据挖掘 Kafka
揭秘大数据时代的极速王者!Flink:颠覆性流处理引擎,让实时数据分析燃爆你的想象力!
【8月更文挑战第29天】Apache Flink 是一个高性能的分布式流处理框架,适用于高吞吐量和低延迟的实时数据处理。它采用统一执行引擎处理有界和无界数据流,具备精确状态管理和灵活窗口操作等特性。Flink 支持毫秒级处理和广泛生态集成,但学习曲线较陡峭,社区相对较小。通过实时日志分析示例,我们展示了如何利用 Flink 从 Kafka 中读取数据并进行词频统计,体现了其强大功能和灵活性。
33 0
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
82 11
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
82 1
|
2月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
2月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。

热门文章

最新文章

下一篇
无影云桌面