技术关注:搜索引擎经验

简介:
[ 搜索技术] 搜索引擎经验总结 #
这里是一点我在学习和开发搜索引擎过程中的一点学习和经验总结,文中讲述了蜘蛛、切词、索引、查询器等名模块的一些概述和细节,希望能给搜索引擎中的初学点的一点帮助,对于那些高手也能够带来一点点启发的帮助!这是我在2004年学习和开发搜索引擎相关东西时的一点总结,可能比较肤浅,最近还是一直在搞这方面的研究,相对于这篇文章又有了一些新的总结,等以后有时间再写一篇和大家分享! [ ajax] Build an Anthem.NET [AJAX] Autosuggest Textbox #
he new ATLAS framework has an Autosuggest feature built in, but in this article I will focus on the Anthem.NET framework, reworking some very nice code that was originally submitted to the Anthem.NET Sourceforge repository as a suggested patch by J.C. Murphy. I've changed around the offering in order to make it more 'self - contained' and moved a lot of brand new data access code and related properties directly into the control. The sample control is presented here in both ASP.NET 1.1 and ASP.NET 2.0 versions, along with the entire source tree so that interested users can look at everything in Anthem.NET. [ .NET开发; 搜索技术; Lucene] DotLucene (Lucene.NET) + KStemmer + Searcharoo = great! #
The overall search engine is composed of three parts:1. A site crawler: In the past, I've built search engines that utilites the raw data inside our CMS, but a crawler seems to work better when you have a fair amount of dymaic content. I found a nice crawler in Searcharoo. It's a full search engine by itself, but since I wanted to use Lucene, I only used the crawler portion Searcharoo.2. An indexer: This is where Lucene.NET (or DotLucene) comes in. When Searharoo downloads a page, the text is sent to Lucene to index.3. A Stemmer: Lucene does a great job of indexing and searching, but it doesn't natively have the ability to search for derivatives of a stem word. For example, if a user seraches for 'tests', Lucene doesn't by default figure out the stem ('test' removing the plural 's') and then search for all words based on the stem ('test' 'testing' or 'tested'). But there is a port of KStemmer which handles all the stemming automagically handles stemming. Example http://www05.dts.edu/search/?q=tests [ 人物; 微软] 看盖茨大叔是如何工作的 #
盖茨大叔可能是世界上最忙的人了吧(有人反对么?)对于大忙人来说,如何安排协调工作,实在太重要了。CNN 的 Money 频道搞了一个“How I work”栏目,定期邀请一些 BOSS 级的人物分享他们的工作技巧。4月4号,轮到Bill Gates 了。 [ 搜索技术; PDF] dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 #
dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 [ CDN; VeryCD] 自建CDN服务 #
DNS服务器可以用bind9来建,Cache则可以选squid。这2个都是linx平台下的开源软件,高效、免费,国内收费的CDN服务基本上也是依赖这2个软件。可惜的是linux平台相对复杂,而且之前中文文档太少,普通用户要架设起一套自己的CDN服务器还是非常麻烦。好在声仔已经把bind9的安装说明以及区分电信网通用户解决方案整理过了,甚至还提供了免费的dnspod服务,直接免去了自己架设DNS服务器的苦恼。Cache服务器所要用到的squid,基本原理是用它做反向代理。可以Google一下,也可以参考我的书签,不过相关的文档都已经较老,且没有大并发、大流量下的实践,对配置的叙述也较简单。回头我会把VeryCD使用squid以来的经验进行总结,并公布我们所使用的squid.conf参数,希望能够对大家有所帮助。 [ .NET开发] 真正的取真实IP地址及利弊 #
现在越来越多的网站使用了代理加速方式,比如 新浪、SOHU的新闻 都使用Squid做代理方式,利用多台服务器分流。Squid本身类似透明代理,会发送“HTTP_X_FORWARDED_FOR” ,HTTP_X_FORWARDED_FOR 中包括客户的IP地址,如果此时客户已经使用了一层透明代理,那么程序取的 “HTTP_X_FORWARDED_FOR” 就包括两个IP地址。(我遇到过3个IP地址的情况,4个的未遇到过)所以取“真正”IP地址的方式,还应该判断 “HTTP_X_FORWARDED_FOR” 中是否有“,”逗号,或者长度是否超长 [ web2.0] Web 2.0 编程思想 #
当然,Web 2.0是一个极其广泛和深奥的话题,没有一个人能够列举出它的所有重点和特征。如果你对此充满了兴趣,请花一点时间来补充我没有提到的地方。我想这就是Web 2.0的参与性吧! [ .NET开发] 投票机的实现及相关技术(一) #
这里只是简单的说明了一个基本的投票机的原理,如果有足够的资源,而且不能使用代理的时候,就可以使用自动切IP(要求你有足够多的合法IP资源)和ADSL自动断线重拨(要求你有足够多的ADSL)。下一篇文章将说明如何切IP和ADSL自动断线重拨。 [ .NET开发; iTextSharp; PDF] PDFToText with ITextSharp #
ITextSharp can be used to extract text from PDF files. The advantage over PDFBox C# version is the smaller size of the ITextSharp and the pure C# implementation This text extraction class is based on the algorithm in C from http://www.codeproject.com/cpp/ExtractPDFText.asp [ 软件] 中外流氓软件大比拼 #
在国内叫停流氓软件,政府怕事、企业心虚。我们只有团结起来,将流氓软件的内幕曝光,才能让用户不再吃亏。我们不用限令也不要期望流氓软件能改邪归正,但愿这些所谓的伎俩能曝光于天下,让我们远离它,BS他。 [ 搜索技术; Google; 数学] 数学之美 #
首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。
专注于企业信息化,最近对股票数据分析较为感兴趣,可免费分享股票个股主力资金实时变化趋势分析工具,股票交流QQ群:457394862

本文转自沧海-重庆博客园博客,原文链接:http://www.cnblogs.com/omygod/archive/2006/11/08/554530.html,如需转载请自行联系原作者
目录
相关文章
|
10月前
|
搜索推荐 程序员
谈一谈|搜索引擎的运用
谈一谈|搜索引擎的运用
53 0
|
11月前
|
数据采集 搜索推荐 数据挖掘
谷歌SEO需要做什么?实战经验助你提升排名!
身为站长,我们都知道谷歌SEO的重要性。 但是,谷歌SEO需要做什么呢?本文将结合多年运营经验,为您详细介绍一下谷歌SEO的实战技巧,助您提升网站排名。
71 0
|
搜索推荐 UED SEO
谈谈2010年网站百度优化新技术
Html标签的使用、关键词密度和位置、URL命名等页面布局在网站优化中占有很大的权重,尤其对于百度而言,所以学习竞争对手的页面布局再根据自身网页的特点进行修改,你可以省去很多时间,但各自网页的权重是不一样的,所以你不仅要去研究领先的竞争对手,还可以研究一下比自己落后的竞争对手,取其精华、去其糟粕。
114 0
|
机器学习/深度学习 人工智能 搜索推荐
技术目前停滞不前,搜索引擎的未来在哪里? | 靠才华
6月20日消息,国外科技媒体Venturebeat撰文对搜索创新乏力的现状进行剖析,并指出未来的搜索技术将让内容更权威、精确,并具有更多样化的形态。知识图谱将为新型搜索提供举足轻重的驱动力。作为搜索界的主导公司,谷歌虽然拥有许多优势,也致力于开发知识图谱、会话应用等创新措施,但陷入了“创新者的困境”中,此外它还将面临苹果、Facebook和亚马逊等搜索领域的有力竞争者。文章表示,未来搜索市场的博弈中,无论哪方获胜,都将打造全球规模最大的数据库。
254 0
|
搜索推荐 数据可视化 大数据
|
索引 搜索推荐 调度
10年+,阿里沉淀出怎样的搜索引擎?
阿里妹导读:搜索引擎是阿里的10年+沉淀,具有很高的技术/业务/商业价值。1688很多场景都借助了搜索中台的能力,基于此,以1688主搜为例介绍搜索全链路知识点,希望对你有所借鉴,有所启发。
7906 0
|
机器学习/深度学习 SEO 算法
内容化时代,SEO如何提升?阿里工程师揭秘新思路
随着内容化时代的到来,搜索引擎越来越重视站点页面的内容承载和丰富度。Alibaba.com作为服务买家和供应商的全球顶尖B类跨境贸易平台,在Google不断提升内容化排名的情况下,阿里工程师是如何突破原有SEO优化手段,提升电商平台的排名的呢?又是如何将人工智能知识应用在摘要内容的抽取过程中?
701 0
|
机器学习/深度学习 算法 UED
seo优化之路:真正具备有价值的内链如何做
今天小峰seo博客在阅读seo书籍的时候,看到关于真正具备有价值的内链如何做的一篇文章,综合自己在做关键词优化的时候,对于内链来说其实自己并没有做好,因为自己也是因为关键词而去做关键词排名,所以在进行内链设计的时候并没有做到位,从而影响用户对文章的阅读性,那么一篇网站文章应该如何做好内链呢?接下来我们就一起来看看。
926 0
|
搜索推荐 UED SEO
学SEO推广技术有前途嘛
 前些天几个素未谋面的学员问我,现在学SEO还有前途嘛?还有一位学员说:很多互联网公司打工的人一听到是做SEO的,只会呵呵一笑。然后吐槽,不就是改改关键词,做做内链,外链,写写文章。
1292 0
|
搜索推荐 UED SEO
新手必看:SEO网站关键词排名优化常见的几大误区
今天给大家谈谈优化误区,很多人会说优化误区不就是那几个雷区嘛?其实我想说的不是的,很多新手在没有参加任何的系统培训指导通过网上的资料或淘宝购买的书籍进行学习,我认为这样是不行的,只能算是入行,但是要想把关键词排名做到首页并非看几本书看几个资料的,这里泽民提醒下老手要想成为SEO大神必须经历无数次的降权你才能成为大神,长话短说进入整题。
1390 0