1 概述
1.1 定义
所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的
一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境——百度百科。
2 具体功能
2.1 爬虫:
1 从互联网爬取原始网页数据,存储于文档知识库服务器。
2.2 文档知识库服务器:
存储原始网页数据,通常是分布式Key-Value数据库,能根据URL/UID快速获取网页内容。
2.3 索引
读取原始网页数据,解析网页,抽取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分块/分片的,并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。
2.4 索引服务器
存储索引数据,主要是倒排表,通常是分块、分片存储,并支持增量更新和删除。数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。
2.5 检索
读取倒排表索引,响应前端查询请求,返回相关文档列表数据。
2.6 排序
对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。
2.7 链接分析
收集各网页的链接数据和锚文本 (Anchor Text),以此计算各网页链接评分,最终会作为网页属性参与返回
结果排序。
2.8 网页去重
1 提取各网页的相关特征属性、计算相似网页组,提供离线索引和在线查询的去重服务。
2.9 网页反垃圾
收集各网页和网站历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。
2.10 查询分析
查询分析:分析用户查询,生成结构化查询请求,指派到相应的类别、主题数据服务器进行查询。
2.11 页面描述/摘要
为检索和排序完成的网页列表提供相应的描述和摘要。
2.12 前端
接受用户请求,分发至相应服务器,返回查询结果。
3 操作技巧
3.1 书名号《》
这种方法有两层效果,一是书面上的效果,即搜索书名号和其中的文字;另外就是书名号中的内容在搜索中不被拆分。另外,加了书名号之后,搜索引擎基本上就只会给出关于这部作品的搜索结果,而不会再有其他方面的内容提供。
3.2 双引号 “”
在想要搜索的文字前后加上双引号,搜索结果就会严格按照被引用的内容进行匹配,包括文字内容和字符顺序。比如搜索 “数学建模”,那么搜索结果中“数学” 和“建模”就不能分开,也不能颠倒顺序,丢字加字。
3.3 加号 +
在搜索文字后面补充加号 +,为的是让结果中都要带有加号后面的内容,比如搜索 “数学建模 +Win10”(此处引号是行文需要,而不是上述搜索技巧),结果中就必须都带有加号前后的内容,而且 “+” 左面还必须留一个空格,右面不能留空格。
3.4 减号 -
和加号同理,如果你不希望在搜索结果中看到某些内容,就用减号 “-” 将其排除。比如某些用户不想在 “数学建模” 的搜索结果中看到苹果 iPhone(或是 Android、WP、Windows10、VR...... 依个人口味酌情添加)的内容,那就输入 “数学建模 - iPhone”。减号内容也可以无限添加,每个减号前面同样要留空格,后面不留。
3.5 星号(*)
搜歌词神器
如果你想搜索的内容中,有一些部分你不能完全确定,比如最常见的情况,在路边听到的某首歌,只记住了零星的歌词,或者是听别人口头跟你说的东西,但是东北腔、福建腔太重时,你可能没听懂一些关键词,这时候星号就派上用场了。
就拿我最喜欢的歌「云烟成雨」举个例子,关键词输入「都已云烟成雨」,还是能找到正确结果的。
3.6 同义词搜索
在未能准确判断关键词的情况下,你可以通过 ~进行同义词搜索。如[A~B],会出现关于A or B的结果
3.7 inurl 和 allinurl
格式为 “inurl:XXX”(冒号为英文)和 “allinurl:XXX YYY”,inurl 作用是搜索结果是带有 “XXX”(支持中英文)的地址页面。
3.8 intitle 和 allintitle
格式为 “intitle:XXX” 和 “allintitle:XXX YYY...”,intitle 搜索结果为网页 title 标题中含有“XXX” 的内容。alltintitle 的效果就是多个 intitle 的组合,比如 “alltintitle 数学建模 Win10”就相当于“intitle 数学建模 intitle Win10”
3.9 site
格式为 “site:XXX”,用于搜索某个域名下的所有内容。如果要只在某个网站中搜索,可以采用例如“Win10 学院 site:www.math.com” 的形式(网址前不加 http 或 https://)。也可以搜索某一类的域名,例如 “site:.com”“site:.cn”。
3.10 filetype
这可以用于搜索特定格式文件,例如搜索 “数学建模 filetype:txt”。