沈浩老师:数据分析随访录-阿里云开发者社区

开发者社区> 大数据文摘> 正文

沈浩老师:数据分析随访录

简介: 1、请您简单介绍一下数据的可视化技术、商业智能技术、和数据挖掘的技术。 答:数据可视化本身也是一种数据分析技术,是将数据以统计图表和视觉形态表现出来的分析展现技术。我常说:看得见才能做得到,看得见才能做得好!随着数据分析技术的发展,数据存储、报表、分析和展现逐渐融合和一体化,过去是从数画图,现在往往先画图再洞察数据异常;可视化领域:报表可视化、绩效仪表盘、社会网络可视化、信息图、一页式管理图表。
0.jpg

1、请您简单介绍一下数据的可视化技术、商业智能技术、和数据挖掘的技术。

答:数据可视化本身也是一种数据分析技术,是将数据以统计图表和视觉形态表现出来的分析展现技术。我常说:看得见才能做得到,看得见才能做得好!随着数据分析技术的发展,数据存储、报表、分析和展现逐渐融合和一体化,过去是从数画图,现在往往先画图再洞察数据异常;可视化领域:报表可视化、绩效仪表盘、社会网络可视化、信息图、一页式管理图表。

商业智能技术:早期的商业智能BI就是报表系统,BI公司也叫前端展现,决策者和管理者不用依赖IT人就可以获得企业运营数据,现在的商业智能是运营平台和管理体系,即包括了企业的现代化管理理念也是一套有效的管理软件工具。早期主要是大型企业,现在可是关注中小企业的运营BI系统;特指在数据仓库DW基础上,采用量化统计和挖掘工具,进行数据统计、分析、查询和报表,嵌入商业模型和商业规则,支持客户关系管理CRM、企业资源计划ERP、供应链管理SCM、绩效管理EPM;当前趋势是决策驾驶舱、仪表盘和决策支持系统;

数据挖掘技术:是采用自动或半自动的智能方式,从海量数据中寻找隐藏在数据中的模式、趋势和相关性,用到了数据库存储技术和机器学习、统计方法。是KDD从数据库中发现知识的过程,发现的知识应该是先前未知的,不能靠直觉发现的知识;发现的知识要未知、实用和有商业价值。主要技术:分类、预测、细分、关联和序列;

2、像您这样的研究者在微博这种平台上怎样进行数据挖掘?而受众有应该怎样挖掘呢?

答:微博是巨大的社会科学实验场,上亿人每天在微博上耕耘,传递信息,分享生活情趣、流行时尚、工作感受;作为传播研究者当然关注,并且希望挖掘有价值的信息。特别是大众传播落地人际传播后,微博成为人际传播的重要场所,且是社会网络。首先研究微博的传播机制,从社会网络角度理解微博传播机制,分析幂率特征,这些都需要数据支持和挖掘。主要挖掘工作:微博抓取爬虫技术、社会网络分析技术、网络可视化技术、传播链和传播网络分析、发现意见领袖、微博营销、社会计算、情感分析、个性化推荐等。

受众怎样挖掘我不是太理解,受众应该是被挖掘的角色!

3、以微博为例,数据挖掘的价值体现在哪里?
答:微博的挖掘不仅仅体系在数据挖掘,从技术上讲可能涉及更广泛的价值和技术体系。价值主要体现在社会舆情监测、微博营销、个性化推荐、客户关系管理、社会情感分析、信息的扩散与传播优化和控制等;也许有人更关心微博在社会管理、社会资本、社会价值取向、社会和谐层面的东西。


4、在微博上怎样把用户所需要的数据推到微博平台上?

答:数据推到微博上,还是信息推到微博上?微博带来了读图时代和信息碎片化,也带来信息的快速传播,有效传播一定要理解微博的传播机制,理解社会网络的特性,意见领袖(大号)在传播的作用不可忽视。名可养名,名可扬名,当然名也可恶名。

5、传统数据分析和现代网络数据分析相比,优缺点在哪里?

答:不是优缺点,而是根本性改变。传统数据分析有一套完善的方法论和解决方案,特别是在结构化数据中,数据挖掘技术和统计分析技术都相对成熟,尽管数据挖掘在国内才开始重视,商业模式越来越重视数据分析对快速和实时决策的重要性,但毕竟可以通过软硬件部署可以解决,量大是问题但不是根本性问题。但是网络数据分析,面临的更复杂的问题,首先是微博带来非结构化数据,很多人想得到但抓取技术和完整性模糊,实时生成和海量存储的一致性、连续性和标准化面临挑战,新技术需要消化,比如Hadoop、MapReduce和自然语言处理、网络分析和文本挖掘技术的实现,新数据分析工具的掌握等等,当然人才更是问题,且涉及多学科领域知识的融合。

6、微博基于客户应该应该建立怎样的分析体系?
答:微博抓取+文本存储结构+NLC分词技术+去高频词+词性抽取+词云分析+社会网络与复杂网络+聚类与相关+规则与模型+可视化+预测与判断!
微博的分析:研究边界的节点,微博的API和网络爬虫技术,大数据的存储传统数据库还是Hadoop或云存储,文本分析和挖掘,个性化推荐技术,微博营销的效果评估,发现意见领袖,舆情控制与监测等等;

7、您将统计学运用在媒介中称为“数学与头脑相遇的地方”,那么您会用什么样的一句话描述统计学在新媒体中的运用?
答:如果你不能量化,就不能理解,不能理解就不能控制,控制不了也就无法改变!这句话主要是强调数学思维问题,数学不是工具是脑具,是一种解决问题的方式方法;因为本人的学科背景,以及在社会科学领域,尤其是很传统的人文社会科学更想突出强调理性和数据的能力。当然差异也是一种优势!

8、在面对微博上信息爆棚之时,信息真假难辨,如何挖掘到真实的信息?
答:首先做自己认为正确的事情,不说自己认为不真实的话,不说自己缺乏足够证据的话“,也就是传播自己肯定的信息,至少是自己认为合理的信息!辨别真伪只能靠自己的修养和媒介素养的提升,理性思考是很重要的,无利不起早,世界上没有无缘无故的爱,也没有无缘无故的恨,人在社会天生就需要与人沟通,传播信息,我们需要的思考如何在微博上与他人互动,如何影响他人或受他人影响。在微博上我们相信什么?为什么会相信,很大程度上都取决于我们与他人互动关系。谣言以及群体恐慌都说明,人们普遍都有模仿他人行为的倾向。所以在微博上,我们不能缺乏独立思考的能力,需要通过自身的学习和自省来构建自己对社会的看法和观点,不能盲目从众或人云亦云。

9、面对微博上用户大强度的信息发布,在微博上搜集信息其实并不是那么方便,您觉得能够建立怎样的数据分析收集机制,方便用户的信息搜集?
答:不是太理解主体!从传统的互联网搜索google 百度,到垂直搜索、企业搜索到现在的社会化搜索,也就是微博搜索都给大家带来了方便,微博也渐渐成为一种信息门户。个人来讲,可以通过建立有效合理的关注分类来查询和交流信息。另外对有用的知识型信息可以收藏和管理。我的学生有些好的习惯,比如再好的记性不如烂笔头,有道笔记本等都是不错记录信息的方法。同时更多弱关系的关注可以获得有用的信息。

10、您之前称“因为社会变革往往不是靠正态而是靠变态”,您说谷歌就是这种变态,那么谷歌在信息统计筛选分析的形式是否可以借鉴到微博上?
答:社会的变革往往靠的是转折点,如果能够了解造成转折点的原因很多社会问题会迎刃而解。强调的是社会科学领域的复杂性和非线性性,特别是冲突理论、混沌理论和复杂性科学理论的问题。我没有说过google是变态,但PageRank是google的核心技术,google改变了互联网的搜索。PageRank的技术和思想当然也是社会网络分析的一种思想和实践,也是关系的挖掘体现!

11、现如今微博采用“会员制”、“微访谈收费”等措施,是否会不利于微博这种新媒体将来的发展?
答:是否有助于发展我不知道,但微博运营商要盈利才可保持持续发展和创新,大家都在寻找盈利模式,微博也是商场和战场!

12、我们看问题是大多都是看事件的表层,您研究数据深度挖掘,是不是都是以不一样的角度去看待事件?
答:微博让人际传播可见!既有乌合之众也有群体智慧;针对特定事件或感兴趣的人我与我的团队,合作伙伴会深度挖掘传播关系和人际网络,理论上可以做到洞察每一个微博传播过程。但是,兴趣和爱好决定了我更关注研究而不是事件本身!
人天生需要沟通,通过什么方式,期望得到什么结果,由你决定。

原文发布时间为:2013-07-29

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据文摘
使用钉钉扫一扫加入圈子
+ 订阅

官方博客
官网链接