搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
这里的用户指的是有信息获取需求的普通用户,其实信息生产提交方(站长等)严格意义来讲也是“用户”,普通用户只需要掌握搜索引擎使用技巧,而站长们更多的是琢磨SEO(搜索引擎优化)。这个帖子这双边都会有所涉及。
二、搜索引擎工作原理
爬行抓取:搜索引擎蜘蛛跟踪链接,抓取页面html代码存入数据库,低权重复制内容过滤;
预处理:文字和相关标签抓取,中文分词,去掉无意义内容提炼页面主要关键词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),去重(同一内容不同网站或同一网站不同网址);倒排索引:关键词到内容,链接投票,文件处理(目前只能根据标签和相关描述文字识别),质量判断:搜索引擎算法;
排名:中文分词(排除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义贡献越小,词频,关键词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。
搜索引擎的工作原理使命就是确保用户发出搜索指令后展现在他们面前的是其所需要的优质内容。
三、目前主流的搜索引擎
搜索引擎简史:1994年Yahoo!诞生,1998年Google诞生,2000年百度诞生,2012年360搜索(好搜)推出。
百度
不管是PC端还是移动端百度市场份额都是绝对的国内第一,跟国内目前其他搜索引擎相比,不说矮子里面挑高个的难听话,也不提竞价广告的乱象丛生,但从信息获取效率以及用户体验来比,百度也是当之无愧的。
作为学习工具,百度搜索有这两个地方不错,一是百度网盘,二是百度文库。
搜狗
搜狗在近年来发展迅速,最具特色的点是可以搜索微信内容和知乎内容。这都仰赖于腾讯的买买买内容战略。