《大规模元搜索引擎技(1)》一导读

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。


335259c968295bd138225a2772e01189c4a07bdd

前 言

当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划,都只能在20世纪六七十年代编写的计算机知识体系上施教,无法把当下大数据带给我们的新思维、新知识传导给学生。
为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。
在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。
丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。
丛书特点:丛书借鉴Morgan & Claypool Publishers出版的Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。
丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。
当今数据洪流席卷全球,而中国正在努力从数据大国走向数据强国,大数据时代的知识更新和人才培养刻不容缓,虽然我们的力量有限,但聚少成多,积小致巨。因此,我们在设计本套丛书封面的时候,特意选择了清代苏州籍宫廷画家徐扬描绘苏州风物的巨幅长卷画作《姑苏繁华图》(原名《盛世滋生图》)作为底图以表达我们的美好愿景,每本书选取这幅巨卷的一部分,一步步见证和记录数据管理领域的学者在学术研究和工程应用中的探索和实践,最终形成适应大数据技术发展和人才培养的知识图谱,共同谱写出我们这个大数据时代的盛世华章。
在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。

目 录

第1章 绪言
1.1 Web上查找信息
1.2 文本检索概述
1.3 搜索引擎技术概述
1.4 本书概述
第2章 元搜索引擎体系结构
2.1 系统体系结构
2.2 为什么使用元搜索引擎技术
2.3 挑战环境
第3章 搜索引擎选择
3.1 粗糙表记方法
3.2 基于学习的方法
3.3 基于样本文档的方法
3.4 统计表记方法
3.4.1 D-WISE
3.4.2 CORI Net
3.4.3 gGlOSS
3.4.4 潜在有用文档数目
3.4.5 最相似文档的相似度
3.4.6 搜索引擎表记生成

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
缓存 NoSQL fastjson
Shiro Session集群共享存入Redis中SimpleSession的transient 属性不能序列化
Shiro Session集群共享存入Redis中SimpleSession的transient 属性不能序列化
304 0
|
XML 存储 数据处理
Python XML处理初级篇:入门lxml库
在数据处理过程中,XML(可扩展标记语言)常常被用作数据存储和传输。Python的lxml库是一个强大的库,用于解析XML和HTML文档。本文将向您介绍如何使用lxml库来解析和处理XML文档。
|
网络架构
为什么udp流设置1316字节
为什么udp流设置1316字节
269 0
|
Python
在Python中实现图片转字符画灰度处理或灰色量化
在Python中实现图片转字符画灰度处理或灰色量化
243 1
|
弹性计算 Ubuntu 网络协议
现在你还不知道怎么使用宝塔面板嘛,下面带你从某里云购域名开始
现在你还不知道怎么使用宝塔面板嘛,下面带你从某里云购域名开始
|
存储 数据挖掘 Linux
服务器数据恢复—CentOS7操作系统服务器数据恢复案例
服务器数据恢复环境: 某品牌PowerEdge R730服务器+PowerVault MD3200存储,划分若干lun,操作系统版本是centos7,EXT4文件系统。 服务器故障&分析: 服务器在运行过程中自动关机且无法启动,服务器管理员对服务器进行修复后成功启动服务器,但服务器上原来的某个分区无法挂载。管理员将无法挂载的分区进行fsck修复&挂载,查看这个分区的数据发现部分文件丢失。
|
数据安全/隐私保护 UED
Mac下Transmit安装教程
Mac下Transmit安装教程
334 0
[阿里短信云平台] -短信包套餐36元1000条-秒级触达!
[阿里短信云平台] -短信包套餐36元1000条-秒级触达!阿里云短信服务价格表,阿里云短信0.032元一条,阿里云短信价格?阿里云短信怎么收费?阿里云短信多少钱一条,阿里云短信价格0.032元一条
642 0
|
Java Maven
maven依赖jar包时版本冲突的解决
maven依赖jar包时版本冲突的解决
737 0
|
设计模式 JavaScript 数据库
表单防止重复提交的四种方式
表单防止重复提交的四种方式
592 0