读书笔记《集体智慧编程》Chapter 4 : Searching and Ranking

简介:

本章概要

本章介绍了搜索引擎的基本原理,PageRank的基本思想和神经网络在学习用户点击行为,用于提高搜索结果的准确性方面的问题

 

搜索引擎基本原理

搜索引擎的基本框架:爬取网页—>制作索引—>检索查询。虽然只有这三步,熟练的工程师基本上一天就可以搭建一个小型的搜索引擎。但是每一步中可以深入研究的地方太多,涉及到的技术难点太多。本书概要的介绍了上面三个步骤,并用python实现了一个小巧的搜索引擎,关键点是要介绍如何对检索出来的内容进行排序。

 

内容排序

主要介绍了三种方式为搜索结果排序

  • 基于页面内容排序:按照检索词的频率,检索词之间的位置,检索词在文本中的距离的标准排序。
  • 基于页面之间的关系排序:采用PageRank(PageRank是根据google联合创始人之一的Larry Page命名的,一直以为与Web Page有关,所以叫PageRank)算法给页面评分,PageRank主要是根据每个页面的出度入度的关系为页面打分,然后根据分数排序。
  • 基于用户行为的排序:采用了神经网络给用户点击行为建模,用于对一些没有发生过的查询组合给出合适的猜测。(原理上的东西没有讲的很深入,直接就上实现了,所以不是很懂)

当然,市面上的搜索引擎都不会只用上面的一种方式排序,而是会混搭使用,取长补短。

声明:如有转载本博文章,请注明出处。您的支持是我的动力!文章部分内容来自互联网,本人不负任何法律责任。
本文转自bourneli博客园博客,原文链接:http://www.cnblogs.com/bourneli/archive/2012/11/28/2793215.html ,如需转载请自行联系原作者
相关文章
|
存储 程序员 C++
《高质量C/C++编程》读书笔记三
《高质量C/C++编程》读书笔记三
91 0
|
前端开发 Java 程序员
《高质量C/C++编程》读书笔记一
《高质量C/C++编程》读书笔记一
97 0
|
存储 人工智能 算法
C++ Primer Plus 第6版 读书笔记(7)第 7 章 函数——C++的编程模块
乐趣在于发现。仔细研究,读者将在函数中找到乐趣。C++自带了一个包含函数的大型库(标准 ANSI 库加上多个 C++类),但真正的编程乐趣在于编写自己的函数;另一方面,要提高编程效率,本章和第 8 章介绍如何定义函数、给函数传递信息以及从函数那里获得信息。
171 0
|
存储 编解码 JSON
Python编程从入门到实践-读书笔记(下)
基础知识重点摘录 字符串 在Python中,用引号括起的都是字符串,其中的引号可以是单引号,也可以是双引号。这种灵活性让你能够在字符串中包含引号和撇号:
|
存储 JSON 测试技术
Python编程从入门到实践-读书笔记(上)
基础知识重点摘录 字符串 在Python中,用引号括起的都是字符串,其中的引号可以是单引号,也可以是双引号。这种灵活性让你能够在字符串中包含引号和撇号:
|
存储 安全 编译器
[笔记]读书笔记 C++设计新思维《一》基于策略的类设计(下)
[笔记]读书笔记 C++设计新思维《一》基于策略的类设计(下)
|
存储 关系型数据库 编译器
C++ Primer Plus 第6版 读书笔记(9)第 9章 函数——内存模型和名称空间
C++ Primer Plus 第6版 读书笔记(9)第 9章 函数——内存模型和名称空间
120 1
|
存储 算法 编译器
C++ Primer Plus 第6版 读书笔记(8)第 8章 函数探幽(二)
C++ Primer Plus 第6版 读书笔记(8)第 8章 函数探幽(二)
77 1