移动互联网信息挖掘的实现及应用浅析-阿里云开发者社区

开发者社区> 人工智能> 正文
登录阅读全文

移动互联网信息挖掘的实现及应用浅析

简介:

当今社会已经进入了信息时代,其主要表现形式为互联网带来的信息爆炸:互联网作为第四大媒体不仅打破了广播、电视、报纸的垄断,而且还融合了广播、电视、报纸的功能,甚至有取代的趋势:随着移动智能终端3G业务的快速普及,移动互联网悄然而至,带给人们更加便捷的视频、游戏、定位等体验。


    目前,移动互联网在全球已经成为最具潜力的市场之一,随之而来的移动互联网领域的信息挖掘也显得日益重要。电信运营商通过对移动互联网中各项数据进行挖掘和分析,能够对用户的使用行为、兴趣爱好、发展趋势等进行全面了解,从而指导运营商进行有效的价值拓展。


    1.需求分析


    3G网络的不断优化,让用户可以随时、随地高速访问无线数据业务:电信运背商抓住了这个契机,为3G用户提供丰富多彩的移动互联网数据业务,如手机音乐、手机电视、手机阅读、手机邮箱等,数据流量也随之与日俱增,这是增值业务收入提高的重要来源。面对如此众多的增值业务,如何让用户快速找到自己感兴趣的业务,运营商又如何去对用户进行分类,根据用户的兴趣爱好有效地推荐业务,这将是各大运营商面临的一个重大问题。因此,只有知道用户在什么地方,什么时间,访问了什么内容,才能及时准确地把握用户需求。要做到这一点,就需要对移动互联网信息进行深度挖掘和分析,了解用户兴趣点和访问习惯等,再通过有针对性的营销手段,通过合适的渠道,快速将业务信息有效地推广到用户终端,促使用户访问所感兴趣的内容,同时避免对用户的重复打扰,这样才能真正实现移动互联网时代精细化运营的目标。


    2.移动互联网信息挖掘方式


    信息挖掘是通过分析用户数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示等步骤。移动互联网数据具有数据量大、数据结构复杂、数据内容分散等特点,呈现出爆炸性增长的趋势。因此,为了从浩如烟海的数据中提取出有效信息,必须选择合适的数据挖掘策略。


    2.1 信息挖掘流程


    信息挖掘是一个复杂的过程,需要进行大量的数据采集和运算等。按照基本功能,可以将整个信息挖掘流程划分成内容采集、内容挖掘和行为分析3个环节(见如图1)。

\

图1 信息挖掘流程


    2.1.1 内容采集


    不论是在政府、商业领域,还是在个人领域,进行数据分析和数据挖掘的基础都要基于信息的真实性和有效性。运营商可以将网络流量与用户的真实身份进行对应。从而进行有效的数据挖掘和分析,有利于后续运营活动、网络优化的开展。内容采集主要包括以下3个方面。


    a)垃圾页面过滤。系统每天从分组域网络中获取了TopN的数据,而真正有效的内容只有一部分,需要在前端排除过滤掉那些不关心的干扰信息、产品的垃圾页面等。


    b)页面内容爬取。这是将网页的内容通过爬词引擎获取的部分,分析页面代码格式,清除标签,尽可能获取内容的标题、正文、段落、字体、颜色等信息。


    c)页面垃圾过滤。页面中不可避免地会存在大量的垃圾信息,这些信息严重干扰到聚类的准确度,页面垃圾过滤机制会找出包括广告在内的段落,并将其清除,不进入内容挖掘部分。


    2.1.2 内容挖掘


    内容挖掘包括以下3个方面。


    a)页面内容分析。把前置工作过滤完成的真实页面内容,交给内容分析引擎,该引擎分析出信息的标题和正文,并将它们进行分词处理,获取整篇内容的关键词条,为内容聚类提供基础数据。


    b)页面内容聚类。这是互联网信息挖掘引擎的核心部分,把所有经过内容分析的页面进行聚类分析,把若干相似度高的内容聚类成一组,然后交给信息处理引擎分析各组内容的相同与不同信息。


    c)页面信息处理。对聚成相同类别的各个页面的信息,进行比对和统计,统计出这些相同或相似页面之间的共性与异性,再结合页面访问信息、客户信息等计算出相应的报表用于展示。


    2.1.3 行为分析


    客户行为分析为内容挖掘与客户关联部分提供数据支持,其包括以下2个部分。


    a)客户画像。客户画像是对客户的多维度描述,是一个客户的信息与标签,为相关数据分析提供依据,同时也是一个个客户群建立的基础。客户画像的维度越多、越精准。就越能够反映出用户的兴趣、习惯等。客户画像的维度可以包括基本信息维度、终端维度、流量维度、访问维度、搜索维度、专题维度、应用维度、产品维度、消费维度等。


    b)客户洞察。客户洞察是对单一客户或客户群的深度描述。洞察访问是在个体的客户画像的基础上,洞察客户访问“热点内容”或“热点标题”的客户特征。客户洞察要求从不同的角度进行,包括基本属性、社会属性、业务属性、电信属性、消费能力等方面。根据洞察条件,对客户进行深度挖掘,挖掘出“热点内容”或“热点标题”的客户特征,即要洞察出客户的基本流量、趋势、习惯、终端、访问、搜索、音乐、视频、图片、下载、游戏、阅读、房产、汽车等特征。


    2.2信息挖掘热点技术


    2.2.1页面过滤


    在一个网站中,存在很多如广告、导航页面、功能页面、提示页面等没有实际主题的页面,这些页面不应该参与到内容(热点内容)挖掘中来,否则将会给分析带来巨大的误差。因此,必须预先对这些页面进行过滤:实际上,过滤过程是一个知识积累的过程。因此,需要建立内容过滤的知识库,在知识库中保存了需要过滤内容的规则。如:广告页面直接过滤掉即可,而导航页面则不进行内容的文本切词等后续挖掘,但需要提取页面上的所有链接以获取下一级页面等。对于一个有效页面,依然需要对其进行内容清洗,去掉页面中的广告、格式等无效数据,仅保留主题内容。


    2.2.2 文本切词


    文本切词,就是对过滤和清洗后的主题内容迸行词组划分,获取i亥主题的所有关键词,即将一个文章的主题内容汉字序列切分成一个个单独的词。目前的分侧箅法可以分为三大类,分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。目前并不能断言哪种方法的准确率更高,因此对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。


    a)字符串匹配分词:又被称为机械分词方法,是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。目前,该种方法已经存在多种较为成熟的算法和模型。应用较为广泛。


    b)基于理解的分词:通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。由于汉语语言的复杂性,目前基于理解的分词系统还处住研究阶段。


    c)基于统计的分词:这种方法只需对语料中的字组频度进行统计,不需要切分词典,但这种方法也有一定的局限性,会经常抽出一些出现频度高,但并不是词的常用字组等。


    2.2.3 内容聚类


    聚类分析是人们认识和探索事物内在联系的一种手段,其目的就是将一个数据集划分为若干聚类并使得同一个聚类内的数据对象具有较高的相似度。而不同聚类中的数据对象则是不相似的。


    不同于内容(页面)分类的把各个贝面分成各个类别。内容聚类是将相同类别,相同内容或相似内容的页面聚合在一起。把其作为比较的对象,提供最终的内容展示基础。聚类分析是面向实际应用的技术,因此聚类的定义与待处理的数据类型有关。基于不同的模型构造思想,目前学术界提出了一系列很具体化的定义,如距离模型、质心模型、连接模型、密度模型、相似性模型等。以相似性模型为例。相同类别的页面,通过对内容标题或正文的分词,比较不同文章分词的相似度,通过聚类算法,满足条件的文章,被认为是聚合的。这里,数据(内容)对象之间的相似度由相似系数确定,而对象之间是否相似则必须通过预设的阈值来加以规定,相似系数大于阈值的对象之间是相似的,否则就是不相似的。


    2.2.4 热点挖掘


    热点挖掘除了对热点网站、热点内容、热点标题等通过聚类分析等进行挖掘,还需要对一些未知的热点信息和热点关联信息进行分析。


    a)不确定网络热点主题发现。数据挖掘的魅力在于“发现”,“发现”即为事先不可预知的事物。在网络上,发现新的热点主题是系统实现的一项重要技术特征。“不确定网络热点主题发现”不事先定义主题,也不事先定义任何关键字,是一种无监督、无指导的自然聚类过程。通过无指导的自然聚类,得到一系列网络主题,然后提取代表词,呈现给用户,用户通过观察再赋予主题名。


    b)热点关联分析。关联规则挖掘是数据挖掘中最活跃的研究方向之一,它反映了大量数据中项目之间有趣的关联或相关关系。通过应用数据挖掘技术中的关联分析技术,给出关键词之间的关联关系。计算任两个关键词存在关联的支持度和置信度,从而当某一关键词出现时可以预测到与其存在关联关系的其他关键词出现的概率。这点在敏感信息监控方面尤其重要,可以提前预判到敏感信息的出现,从而提前做出相应的处理措施。


    3.业务应用


    目前,基于移动互联网的信息挖掘,结合运营商的业务发展情况,可以开展针对性业务推荐和定向广告的应用探索。其巾,针对性业务推荐是根据用户特征推荐可能感兴趣的业务。可以涵盖运营商的自有业务、合作业务以及第三方业务等;定向广告是基于用户信息的挖掘分析进行精确投放,既节约,资源,又可以达到良好的投放效果。


    3.1 针对性业务推荐


    移动互联网时代。用户对信息的获取需求更为迫切,为用户推荐合适的内容,有利于增加用户黏性,降低流失率。如用户访问门户网站时,为其推荐适合的书籍、游戏、视频等。国外运营商很早就重视将用户行为分析技术应用于针对性营销,并开展了多种尝试。例如,Vodafone通过用户信息挖掘进行精确营销,对产品销售提升最高可达400%?


    国内运营商也建设了相关平台,通过信息挖掘,对用户进行细分,营销人员根据营销目标,结合产品匹配模型,实现针对性业务推荐和精确营销的目的,此外,存新产品开发过程中,也逐渐重视用户分析的应用和实践,针对不同的用户群体,开发不同的产品,制定不同的套餐标准等,并及时发现现有产品或业务流程的小合理之处。进行优化和改进,提高客户体验。


    针对性业务推荐可以基于多种方式。如营业厅实体渠道、门户个性化展现、电话营销、以及传统的短信、彩信和WAP PUSH推广等。以下是某省通过WAP PUSH推送炫铃“音乐盒”的营销案例,采用相同的推广内容和渠道。但随着目标用户群提取方式的不同,营销效果和营销成本都有巨大差异。


    方式一:随机选取10000个3G手机上网的出账用户,推送“音乐盒”业务,用户订购率为0.8%。


    方式二:根据访问和搜索“兴趣点”,选取标有“音乐类”特征的3 000个3G用户进行推送,用户订购率为7.6%。


    对比以上2种方式发现。经过用户信息挖掘后的针对性营销,可以大幅提升成功率,节约营销资源。


    3.2 定向广告


    通过对用户浏览、搜索内容的分析,有针对性地投放广告。以达到最好的广告效果。目前这种定向广告在互联网领域应用非常广泛,例如Google的Adwords,根据用户当前阅读的内容投放精确广告;腾讯利用其QQ用户的行为和偏好信息开展游戏等相关业务的精准营销


    以手机终端或业务为载体的移动广告形式多种多样,如短信广告、彩信广告、WAP广告、程序嵌入式广告、位置广告、手机视频广告、搜索广告等。因此,利用手机用户的信息挖掘和行为分析,基于移动广告的多种形式,结合相应的推荐模型。可以通过精准友好的方式及时推送有效的手机广告。


    在移动通信领域,很多国外运营商都开展了定向广告服务,如美国spint通过对用户位置信息分布的分析,为广告商,商场提供最佳广告/开店位置服务;新加坡电信业也通过用户信息和位置信息提供广告服务;英国新兴运营商Blyk通过精准营销广告运作,使最高用户响应率达51%(普通方式投放的响应率不足1%)。


    4.结束语


    移动互联网是目前移动通信发展的趋势。是运营商需要重点关注的领域。借助有效的信息挖掘技术。提取用户信息,分析用户的特征,从而有针对性地开展运营和服务,并根据营销结果进行进一步的信息挖掘和分析,从而形成良性的闭环营销体系。如何开展好高效的信息挖掘工作,充分发挥运营商的智能管道优势,持续做好流量和业务运营将是运营商探索的一个方向。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章