1 概述

1.1 定义

所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的
一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境——百度百科。

2 具体功能

2.1 爬虫:

1 从互联网爬取原始网页数据,存储于文档知识库服务器。

2.2 文档知识库服务器:

存储原始网页数据,通常是分布式Key-Value数据库,能根据URL/UID快速获取网页内容。

2.3 索引

读取原始网页数据,解析网页,抽取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分块/分片的,并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。

2.4 索引服务器

存储索引数据,主要是倒排表,通常是分块、分片存储,并支持增量更新和删除。数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。

2.5 检索

读取倒排表索引,响应前端查询请求,返回相关文档列表数据。

2.6 排序

对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。

2.7 链接分析

收集各网页的链接数据和锚文本 (Anchor Text),以此计算各网页链接评分,最终会作为网页属性参与返回 结果排序。

2.8 网页去重

1 提取各网页的相关特征属性、计算相似网页组,提供离线索引和在线查询的去重服务。

2.9 网页反垃圾

收集各网页和网站历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。

2.10 查询分析

查询分析:分析用户查询,生成结构化查询请求,指派到相应的类别、主题数据服务器进行查询。

2.11 页面描述/摘要

为检索和排序完成的网页列表提供相应的描述和摘要。

2.12 前端

接受用户请求,分发至相应服务器,返回查询结果。

3 操作技巧

3.1 书名号《》

这种方法有两层效果,一是书面上的效果,即搜索书名号和其中的文字;另外就是书名号中的内容在搜索中不被拆分。另外,加了书名号之后,搜索引擎基本上就只会给出关于这部作品的搜索结果,而不会再有其他方面的内容提供。

3.2 双引号 “”

在想要搜索的文字前后加上双引号,搜索结果就会严格按照被引用的内容进行匹配,包括文字内容和字符顺序。比如搜索 “数学建模”,那么搜索结果中“数学” 和“建模”就不能分开,也不能颠倒顺序,丢字加字。

3.3 加号 +

在搜索文字后面补充加号 +,为的是让结果中都要带有加号后面的内容,比如搜索 “数学建模 +Win10”(此处引号是行文需要,而不是上述搜索技巧),结果中就必须都带有加号前后的内容,而且 “+” 左面还必须留一个空格,右面不能留空格。

3.4 减号 -

和加号同理,如果你不希望在搜索结果中看到某些内容,就用减号 “-” 将其排除。比如某些用户不想在 “数学建模” 的搜索结果中看到苹果 iPhone(或是 Android、WP、Windows10、VR...... 依个人口味酌情添加)的内容,那就输入 “数学建模 - iPhone”。减号内容也可以无限添加,每个减号前面同样要留空格,后面不留。

3.5 星号(*)

搜歌词神器
如果你想搜索的内容中,有一些部分你不能完全确定,比如最常见的情况,在路边听到的某首歌,只记住了零星的歌词,或者是听别人口头跟你说的东西,但是东北腔、福建腔太重时,你可能没听懂一些关键词,这时候星号就派上用场了。
就拿我最喜欢的歌「云烟成雨」举个例子,关键词输入「都已云烟成雨」,还是能找到正确结果的。

3.6 同义词搜索

在未能准确判断关键词的情况下,你可以通过 ~进行同义词搜索。如[A~B],会出现关于A or B的结果

3.7 inurl 和 allinurl

格式为 “inurl:XXX”(冒号为英文)和 “allinurl:XXX YYY”,inurl 作用是搜索结果是带有 “XXX”(支持中英文)的地址页面。

3.8 intitle 和 allintitle

格式为 “intitle:XXX” 和 “allintitle:XXX YYY...”,intitle 搜索结果为网页 title 标题中含有“XXX” 的内容。alltintitle 的效果就是多个 intitle 的组合,比如 “alltintitle 数学建模 Win10”就相当于“intitle 数学建模 intitle Win10”

3.9 site

格式为 “site:XXX”,用于搜索某个域名下的所有内容。如果要只在某个网站中搜索,可以采用例如“Win10 学院 site:www.math.com” 的形式(网址前不加 http 或 https://)。也可以搜索某一类的域名,例如 “site:.com”“site:.cn”。

3.10 filetype

这可以用于搜索特定格式文件,例如搜索 “数学建模 filetype:txt”。

Loading...
公告
🎉大学生科技协会(2024)网站试运行🎉
-- 感谢您的支持 --- 科协获:
小平科技创新团队 (青少年科技创新领域国家级最高荣誉,全校唯一)
全国高校百强社团 中国大学生ican物联网创新创业实践教育基地 校十佳社团 “一院一品”智能空间 科技竞赛优秀组织单位
阅读科协简介了解更多吧!