《影响中国大数据产业进程100人》张华平:如何应用网络搜索挖掘内容价值

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

前言:

大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由网加时代网、中国首席数据官联盟发起并主办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟协办的“影响中国大数据产业进程100人”大型人物专访活动全面启动,被采访对象均来自中国首席数据官联盟(分别为自政府、产、学、研、企各个领域),他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!

第四期专访人物:中国首席数据官联盟-专家组成员,ICTCLAS创始人张华平。

中国首席数据官联盟-专家组成员,ICTCLAS创始人张华平

张华平,中国首席数据联盟专家组成员,北京理工大学副教授,博士,研究生导师,知名汉语分词系统ICTCLAS创始人,大数据搜索与挖掘实验室主任,《大数据搜索与挖掘》作者。

本期访谈由网加时代网特邀嘉宾、中国首席数据官联盟发起人鲁四海向王绪刚先生提问。

《网加时代网》特邀嘉宾鲁四海:云计算、智慧城市、移动互联网、大数据与物联网已经成为大数据时代的技术特征,实现了人、机器与实物的多维互联互通。对语言的理解一直是大数据深入应用的一道门槛。互联网上的内容很多,可以说是信息泛滥,那么要从网络挖掘内容价值,是不是也有一些条件和要求需要满足?

《网加时代网》特邀嘉宾张华平 : 是的。网络搜索与挖掘其实就是四步曲: 目标分解,信息收集,分析去噪,情报提炼。据此可以看出,要进行网络搜索与挖掘,也必须具备四个要件。

信息可达——互联网真实记录并可采集抽取到相关的信息,无论深浅,无论真假,无论规模;

群体规模——海量规模确保各类UGC(用户产生的内容)能满足挖掘所需;

目标可解——挖掘目标本身具有可解性,能够进一步分解具体落实;

工具可行——检索工具与分析工具具备可行的计算代价与分析效率。

《网加时代网》特邀嘉宾鲁四海:大数据搜索与挖掘目前在国内有什么实际应用?

《网加时代网》特邀嘉宾张华平 : 大数据搜索与挖掘目前应用很广泛,它在政府舆情、军事信息战、企业竞争情报、金融征信,个人社交等方面均具有广泛的应用前景。

一个实用案例是中国证监会的网络舆情系统,这是我做的。它会广泛搜集网上各种各样的信息,采集BBS论坛新闻,包括采集微博信息。采完以后进行各种分析提炼,可以发现有什么人在发布虚假信息。

再比如用于地图开发。我们的GPS数据,许多都是由地图厂商那里来的。地图商们总是面临一个问题,某地新盖了一栋楼了,或者搬地方了,或者又多了一家宾馆,等等。地图厂商要获得这些信息,其实是相当耗钱费力的,他们要每天派300辆车在全国各地跑,一直跑一直拍,沿途发现什么地方变化了,或者路断了,就要分析再入库。

用网络搜索和数据挖掘的手段来解决此事就方便许多了。现在是网络时代,例如某地要盖个楼、开家宾馆什么的,一般网上都会有消息发出来,那么就可以用技术手段,从新闻或网友发言中分析挖掘出来。地图商或交管局拿了这个数据,稍微核实一下就能够用来更新自己的数据库。

此外,国内网上的“水军”现在是很厉害的,要炒作什么话题,要把谁捧上去或贬下来,手法多种多样,真是翻手为云覆手为雨。我们就可以通过数据挖掘,辨别出“水军”力量的运作线索。

《网加时代网》特邀嘉宾鲁四海:按照你的说法,大数据搜索能去除干扰,精准的挖掘出你想要的信息,如果用在搜索领域是否使用户更加快捷方便查询。

《网加时代网》特邀嘉宾张华平 : 现在的网络搜索服务一般都是用户输入搜索条件,然后跳出一大堆链接,让你点进去看页面。这种方式既浪费时间工作量又大。给出一些条件,利用大数据搜索挖掘直接给出最终答案是可以实现的。这种技术,在专业领域应用可以,并且我们也已经有了这种案例,这种搜索的专业定位叫“问答式搜索引擎”,但是,在通用搜索的领域不可能全部实现这种服务。因为人的知识,到目前为止,并没有一个有效的方法实现全部的逻辑推理。

《网加时代网》特邀嘉宾鲁四海:张老师在大数据吧搜索挖掘技术领域深耕10多年了,现在大数据搜索挖掘需要什么样的技术链条呢?

《网加时代网》特邀嘉宾张华平 : 这看似简单,其它是一个很复杂的过程,我在此领域不止10年了,从我读大学到现在一直在坚守阵地。要满足应用者对大数据文本的处理需求,需要完整的技术链条包括:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

但在大数据文本处理这部分既相对独立,又需要无缝地融合到其它的各类复杂应用系统之中,所以在选择这部分组件的时候看能否兼容各大主流的平台,能否被Java,C/C++,C#, Python,Php, R等各类主流开发语言很好调用其所有功能。

《网加时代网》特邀嘉宾鲁四海:我想张博士开发的NLPIR就能够全方位多角度满足应用者对大数据文本的处理需求。能不能请张博士对NLPIR采用的一些先进算法给我们分享一下。

《网加时代网》特邀嘉宾张华平 : NLPIR是兼容目前所有主要平台,也可以被各种开发语言调用的。

汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。NLPIR综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,另外特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。

NLPIR实体抽取系统采用基于角色标注算法自动识别命名实体,开发者可在此基础上搭建多样化的大数据挖掘应用。

NLPIR采用深度神经网络对分类体系进行了综合训练。演示平台目前训练的类别只是新闻的政治、经济、军事等。我们内置的算法支持类别自定义训练,该算法对常规文本的分类准确率较高,综合开放测试的F值接近86%。NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。

NLPIR情感分析提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图)。情感分析主要采用了两种技术:

NLPIR情感分析提供两种模式

1.情感词的自动识别与权重自动计算,利用共现关系,采用Bootstrapping的策略,反复迭代,生成新的情感词及权重。

2.情感判别的深度神经网络:基于深度神经网络对情感词进行扩展计算,综合为最终的结果。(算法细节请参照:《大数据搜索与挖掘》)。

中国首席数据官联盟/中国CDO精英俱乐部是国内首个以CDO为核心的技术型非盈利性联盟组织,遵循自愿、平等、合作的原则。由刘冬冬、鲁四海和葛涵涛三 人发起成立,为实现中国大数据产业全球领 先而努力。将数据变为未来企业发展的核心驱动力并最终推动中国大数据产业整体发展水平。


原文发布时间为:2016年4月8日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
15天前
|
Kubernetes 安全 Devops
有效抵御网络应用及API威胁,聊聊F5 BIG-IP Next Web应用防火墙
有效抵御网络应用及API威胁,聊聊F5 BIG-IP Next Web应用防火墙
39 10
有效抵御网络应用及API威胁,聊聊F5 BIG-IP Next Web应用防火墙
|
17天前
|
5G 数据安全/隐私保护
如果已经链接了5Gwifi网络设备是否还能搜索到其他5Gwifi网络
当设备已经连接到一个5G Wi-Fi网络时,它仍然有能力搜索和发现其他可用的5G Wi-Fi网络。这里所说的“5G Wi-Fi”通常指的是运行在5GHz频段的Wi-Fi网络,而不是与移动通信中的5G网络(即第五代移动通信技术)混淆。
|
1月前
|
存储 监控 物联网
计算机网络的应用
计算机网络已深入现代生活的多个方面,包括通信与交流(电子邮件、即时通讯、社交媒体)、媒体与娱乐(在线媒体、在线游戏)、商务与经济(电子商务、远程办公)、教育与学习(在线教育平台)、物联网与智能家居、远程服务(远程医疗、智能交通系统)及数据存储与处理(云计算、数据共享与分析)。这些应用极大地方便了人们的生活,促进了社会的发展。
51 2
计算机网络的应用
|
22天前
|
存储 安全 网络安全
网络安全的盾与剑:漏洞防御与加密技术的实战应用
在数字化浪潮中,网络安全成为保护信息资产的重中之重。本文将深入探讨网络安全的两个关键领域——安全漏洞的防御策略和加密技术的应用,通过具体案例分析常见的安全威胁,并提供实用的防护措施。同时,我们将展示如何利用Python编程语言实现简单的加密算法,增强读者的安全意识和技术能力。文章旨在为非专业读者提供一扇了解网络安全复杂世界的窗口,以及为专业人士提供可立即投入使用的技术参考。
|
29天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
52 8
|
27天前
|
网络协议 物联网 数据处理
C语言在网络通信程序实现中的应用,介绍了网络通信的基本概念、C语言的特点及其在网络通信中的优势
本文探讨了C语言在网络通信程序实现中的应用,介绍了网络通信的基本概念、C语言的特点及其在网络通信中的优势。文章详细讲解了使用C语言实现网络通信程序的基本步骤,包括TCP和UDP通信程序的实现,并讨论了关键技术、优化方法及未来发展趋势,旨在帮助读者掌握C语言在网络通信中的应用技巧。
38 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
|
29天前
|
机器学习/深度学习 人工智能 安全
探索人工智能在网络安全中的创新应用
探索人工智能在网络安全中的创新应用
|
10天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
47 17
|
20天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。