深度解读:大数据时代的意图搜索

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

意图搜索起源于互联网搜索引擎,是基于互联网上海量的无组织、异构、动态的数据与信息环境下搜索引擎不能准确理解用户的搜索意图而提出的,利用如神经网络算法等机器学习方法实现智能化的自动搜索,从而更加精准、主体的提供个性化的服务。

一、目的意义

大数据时代,任何网络行为所留下的“蛛丝马迹”都以数据的形式隐藏在大数据中,正所谓“存在就有痕迹,联系就有信息”,通过应用物联网、大数据、人工智能等技术,构建网络空间中行为事件、思想事件等模型。在实体空间和虚拟空间中全面收集、甄别、过滤、分类、整合人的存在痕迹和联系信息,关注人物或事件间联系链,从而实现网络空间中存在的各种意图,完成对意图产生源头、传播途径和发展趋势的全方位描述,达到对个人和组织的所思所想行为所在的全面搜索和分析。做到提前预警、智能决策。

2013年的“棱镜门”事件为国家安全敲响警钟的同时我们也看到正是有了“大数据”的存在,才让“棱镜”项目得以实施。目前,我国面临的安全形势严峻,反恐问题更是当前国际面临的重要安全问题,大数据环境下的意图搜索将能积极应对新时期各种安全威胁,运用大数据技术和人工智能技术进行深入分析,实现对安全事件的准确识别和提前预警,有力提升我国基于大数据的国家安全防护能力。

二、关键技术

1、人工智能技术:意图搜索引擎构建了人与信息的意识主动化的连接,通过不断的交换学习,形成模拟人脑的智能系统,从而实现人与机器的相互了解,因此人工智能技术将是意图所搜的核心技术。主要相关的人工智能技术有:机器深度学习、计算机神经网络、脑机接口、自然语言处理等技术。

2、大数据技术:而对数据进行收集、存储、处理、挖掘分析是搜索技术的基本环节,因此以数据存储、数据挖掘等技术为主的大数据技术也是意图搜索的关键技术之一。主要相关的大数据技术有:数据采集、数据存储、数据处理、数据挖掘与分析技术等。

3、物联网技术:随着传感器的发展和移动化的能力,意图搜索也呈现多样化的形态。因此,以传感器技术为主的物联网技术也是意图搜索的关键技术之一。

4、其他信息技术:此外,搜索实现从传统搜索到人工智能的过渡,还需要分词技术、硬件存储、云计算、超级计算、知识图谱等相关技术的成熟。

三、目标成果

大数据环境下的意图搜索技术将是构建一个构建虚拟空间信息社会雷达系统。该系统的主体是搭建一个完整的知识库,开发意图搜索引擎系统、并构建云计算与大数据的基础设施平台。

搜索引擎系统:搜集器、控制器、索引器、检索器、用户接口、处理分析系统

技术成果:人工智能、智能推理及知识研发、信息提取与分析技术、虚拟化工具、系统运行保障研发、系统算法、信息检索能力研发等技术上的突破成果。

四、国内外状况

1、美国

(1)美国技术优势明显

以微软和Google为代表的互联网巨头技术和应用皆处于领先地位。微软亚洲研究院的人立方关系搜索提供的搜索结果中,将所有信息都按照“人”进行重新整合,以人与人之间的关系为纽带,将埋藏在网络信息海洋中的“人”的信息连接汇总,图文并茂地展现出来,开启的意图搜索的新篇章。棱镜门事件以来,NSA的全球监控行为遭到各国政府和人民的谴责,但美国情报部门所展现的大数据和信息安全技术实力不容忽视。Accumulo数据库系统是NSA企业架构的核心。大多数NSA的关键分析应用都运行在Accumulo上,从技术角度看,NSA已经能够识别网络上的各种可疑行为和个人,可以说美国政府在相关技术已走到了Google、微软等互联网巨头之前。

(2)政府支持力度大

美国在相关技术的研发上给予高度重视。奥巴马政府大数据研究和发展倡议中推出的 XDATA项目将在四年里耗费2500万美元来开发计算技术和防护数据软件。2014年美国国防高级研究计划局(DARPA)启动其“大机理”项目,目的是发展可以发现隐藏在大数据中的因果关系模型。美国国防部每年投入2.5 亿美元资助利用海量数据的新方法研究,并将传感、感知和决策支持结合在一起,制造能自己运行和做出决策的自治系统,为军事行动提供更好的支持。NSA在大数据项目的规模、可扩展性、安全性在很多方面甚至超过了Google、亚马逊和苹果这样的大型互联网企业。NSA旗下的风险投资公司In-Q-Tel迄今已经投资了200多个云计算、大数据、搜索与分析创业项目。美国国土安全部正在开展“可视化和数据分析卓越中心”项目,通过对大规模异构数据的研究,使应急救援人员能够解决人为或自然灾害、恐怖主义事件、网络威胁等方面的问题。(参考文献:美国国防部的大数据安全战略,大数据文摘)

(3)美军利用大数据搜索提升侦查和反恐能力

美军正在开发的新一代大数据系统,能够通过计算机的速度和精度以及人的敏捷性,来理解和解释现实世界,协助指挥官和分析人员将以100倍于当前的速度来理解传感器收集的海量数据。例如,当阿富汗境内的大毒枭准备为基地组织等恐怖分子提供资金时,美军的情报分析人员能够借助大数据技术,把作战方案库里的数据与有关基地组织情况库里的资金数据进行实时、自主关联,指导美军先敌一步采取行动。

在美国国防部的资助下,美国“记录未来”公司,专门研究如何通过分析互联网信息,特别是“脸谱”、“推特”等社交网站,预先察知恐怖袭击等重大事件。2013年6月,美国国家安全局局长兼美国赛博司令部司令亚历山大在参加众议院特设情报委员会听证会时承认,通过秘密进行的“棱镜”等监视项目,美国政府至少挫败了50起恐怖袭击事件。这是大数据技术运用的成功案例。(参考文献:战争步入大数据时代,中国青年报,2014.03.14)

2、我国的发展现状

在我国百度、搜狗、360等互联网公司以及海康威视等安防企业处于技术和应用的前沿。从整体上来看,在商业开放和应用方面尚具备一定的国际竞争力,但从大数据智能搜索应用于国家安全防护上来看,我国在此方面与美国尚存在着较大的差距。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
25天前
|
运维 监控 Java
在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。
【7月更文挑战第1天】在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。本文讲解如何在Java中集成Elasticsearch,包括安装配置、使用RestHighLevelClient连接、创建索引和文档操作,以及全文检索查询。此外,还涉及高级查询、性能优化和故障排查,帮助开发者高效处理非结构化数据。
31 0
|
10月前
|
消息中间件 分布式计算 大数据
大数据Spark实时搜索日志实时分析
大数据Spark实时搜索日志实时分析
153 1
|
9月前
|
前端开发 JavaScript 大数据
24jqGrid -搜索大数据
24jqGrid -搜索大数据
36 0
|
大数据
阿里云产品体系分为6大分类——大数据——大数据的5种模块——大数据搜索与分析
阿里云产品体系分为6大分类——大数据——大数据的5种模块——大数据搜索与分析自制脑图
224 1
|
存储 数据采集 XML
大数据数据采集的数据来源的日志数据之搜索类数据
在大数据领域,数据采集是一个非常重要的环节。日志数据已经成为了大数据应用中不可或缺的一部分,尤其是搜索类数据。本文将介绍搜索类日志数据作为数据来源的特点以及其采集流程。
153 0
|
前端开发 JavaScript 搜索推荐
select2,利用ajax高效查询大数据列表 1(可搜索、可分页)
select2,利用ajax高效查询大数据列表(可搜索、可分页)
440 0
select2,利用ajax高效查询大数据列表 1(可搜索、可分页)
|
存储 分布式计算 自然语言处理
基于MaxCompute+开放搜索的电商、零售行业搜索开发实践
搜索一直是电商行业流量来源的核心入口之一,如何搭建电商行业搜索并提升搜索效果,一直是电商行业开发者努力攻克的难题。基于传统数据库或开源引擎虽然能够搭建基础搜索服务,但随着商品数据的增多和业务流量的增长,难免会遇到性能瓶颈和效果瓶颈。另一方面,随着电商、直播、云计算等技术的不断发展,越来越多的传统零售企业正在进行互联网云上转型,特别是受近两年疫情等因素的影响,APP、小程序已经成为零售企业重要的业务增长来源。在此背景下,如何快速搭建高效搜索服务成为零售行业上云及转型的难题。
1149 0
基于MaxCompute+开放搜索的电商、零售行业搜索开发实践
|
前端开发 Java 大数据
select2,利用ajax高效查询大数据列表2(可搜索、可分页)
select2,利用ajax高效查询大数据列表(可搜索、可分页)
168 0
|
机器学习/深度学习 人工智能 达摩院
大数据+AI Meetup 2021 首站!9位大佬解读向量搜索技术在多维场景下的应用
3月20日,阿里云开发者社区联合阿里云计算平台事业部、达摩院共同举办的 BIGDATA + AI Meetup · 北京站向量检索专场即将重磅开启!
大数据+AI Meetup 2021 首站!9位大佬解读向量搜索技术在多维场景下的应用
|
自然语言处理 运维 监控
阿里云飞天大数据产品价值解读——《一站式高质量搜索开放搜索》
随着研发技术的发展,开发者对内容、工具、平台等的一站式需求愈加强烈。为了构建更加高效和高质量的一站式大数据搜索产品,阿里云将一站式搜索服务的核心着眼于实现高质量以及开放式搜索。本次直播将由阿里云智能-高级产品专家染天为大家全面解析OpenSearch核心能力、搜索体验、价值评估并分享典型案例
4912 0
阿里云飞天大数据产品价值解读——《一站式高质量搜索开放搜索》