爬网
系统访问和分析内容及其属性
爬网:对内容进行爬网是指系统访问和分析内容及其属性(有时称为“元数据”)从而建立可提供搜索查询服务的内容索引的过程。
定义
通过成功地对内容进行爬网,爬网程序可以访问和读取您希望用于搜索查询的单个文件或内容片段。这些文件的关键字和元数据存储在内容索引(有时称为“索引”)中。该索引包含关键字和元数据,关键字存储在索引服务器的文件系统中,而元数据存储在搜索数据库中。该系统可维护关键字、与单个内容片段关联的元数据以及从中对内容进行爬网的源的 URL 之间的映射。
爬网内容
爬网内容 (Office SharePoint Server 2007),对内容进行爬网是指系统访问和分析内容及其属性(有时称为“元数据”)从而建立可提供搜索查询服务的内容索引的过程。
通过成功地对内容进行爬网,爬网程序可以访问和读取用户希望用于搜索查询的单个文件或内容片段。这些文件的关键字和元数据存储在内容索引(有时称为“索引”)中。该索引包含关键字和元数据,关键字存储在索引服务器的文件系统中,而元数据存储在搜索数据库中。该系统可维护关键字、与单个内容片段关联的元数据以及从中对内容进行爬网的源的 URL 之间的映射。
爬网原因
服务器场已部署并运行一段时间后,搜索服务管理员通常必须更改爬网计划。其原因如下:
爬网情况
独立于较快主服务器上承载的内容,对较慢主服务器上承载的内容进行爬网。
对新的内容源进行爬网。
爬网的频率与目标内容更新的频率相同。例如,可能需要对每日更新的库执行每日爬网,并对很少更新的库执行较低频率的爬网。
执行方法
通常情况下,需要通过安排爬网时间来自动完成大多数爬网。但有时,可能需要手动启动爬网。例如,可能需要启动爬网以对要爬网和编制索引的内容应用爬网规则等管理更改,或者确定爬网日志中的错误是否已解决。
此外,不管是手动启动爬网还是按计划启动爬网,都可能需要停止或暂停一个或多个爬网。例如,其服务器承载待爬网内容的管理员可能通知爬网会给服务器带来太多负载,或者要爬网的服务器当前处于脱机状态。在上述任一情况下,都可能需要停止或暂停爬网。
应考虑完全爬网比增量爬网需要更多的时间和服务器资源。
完全爬网
比增量爬网占用索引服务器上更多的内存和 CPU 周期。
在爬网服务器场中的内容时占用前端 Web 服务器上更多的内存和 CPU 循环。这不适用于服务器场外部的内容。
比增量爬网使用更多的网络带宽
还必须注意不要同时暂停太多内容源的爬网,因为暂停的每个内容源都会消耗索引服务器上的内存和 CPU 资源。
若要启动完全爬网或增量爬网,停止、暂停或继续爬网,请执行以下过程之一:
启动完全爬网 (Office SharePoint Server 2007)
启动增量爬网 (Office SharePoint Server 2007)
停止爬网 (Office SharePoint Server 2007)
暂停和继续爬网 (Office SharePoint Server 2007)
计划爬网
以下各节提供了有关按计划爬网内容时注意事项的详细信息。
停机期和使用高峰期
应考虑承载待爬网内容的服务器的停机期和使用高峰期。例如,如果要对服务器场以外的众多不同服务器承载的内容进行爬网,则这些服务器可能会按不同的计划备份且具有不同的使用高峰期。通常,管理员无法对服务器场以外的服务器进行管理控制。因此,建议与承载待爬网内容的服务器的管理员协调爬网事宜,以确保不会在服务器停机或使用高峰期尝试爬网其中的内容。
常见的一种情况是与站内的 SharePoint 网站内容相关的内容不在贵组织的控制范围内。可以将此内容的开始地址添加到现有内容源中或者为外部内容创建一个新内容源。由于外部网站的可用性千差万别,因此为不同的外部内容添加单独的内容源会很有帮助。这样,就可以在其他内容源的爬网时间以外爬网外部内容的内容源。可以根据每个网站的可用性按爬网计划更新外部内容。
频繁更新的内容
制定爬网计划时,应考虑某些内容源的更新频率通常高于其他内容源。例如,如果知道某些网站集或外部源中的内容只在周五进行更新,那么对这些内容进行爬网的频率若高于每周一次就会浪费资源。但是,服务器场可能包含从周一到周五持续更新,但周六和周日通常不会更新的其他网站集。在这种情况下,可能希望一周数次爬网这些网站而周末则不进行爬网。
在所在环境的网站集中存储内容的方式可指导管理员为每个 Web 应用程序中的各个网站集创建其他内容源。例如,如果网站集只存储归档信息,则爬网该网站集的频率就不必像爬网存储经常更新内容的网站集那样频繁。在这种情况下,管理员可能需要使用不同的内容源来爬网这两个网站集,以便按不同的计划对它们进行爬网。
完全和增量爬网计划
作为搜索服务管理员,可以为每个内容源单独配置爬网计划。对于每个内容源,管理员可以指定不同的完全爬网时间和增量爬网时间。
建议根据运行搜索服务的服务器和承载爬网内容的服务器的可用性、性能及带宽因素来制定爬网计划。
在制定爬网计划时,应考虑以下最佳方案:
基于类似的可用性以及承载内容的服务器可接受的总体资源使用率,对内容源中的开始地址进行分组。
将每个内容源的增量爬网安排在承载内容的服务器可用并且对服务器资源的需求较低时进行。也可以添加或编辑一个或多个爬网程序影响规则,以便减少被爬网服务器上的负载。
使服务器场内各服务器的爬网计划交错,以便场内各服务器上的负载在时间上分布均匀。
仅当下一节中列出的原因为必需原因时,才安排完全爬网。建议执行完全爬网的频率应低于执行增量爬网的频率。
将要求完全爬网的管理更改安排在完全爬网前不久执行。例如:建议在执行下一次计划的完全爬网之前尝试安排创建爬网规则,以便消除额外的完全爬网。
是否同时进行爬网取决于要爬网的索引服务器的容量。建议管理员错开爬网时间以便索引服务器不会同时使用多个内容源进行爬网。索引服务器的性能和承载该内容的服务器的性能决定爬网的重叠程度。随着时间推移,管理员会逐渐了解爬网每个内容源通常所需的时间,从而可以制定爬网计划策略。建议记录在环境中爬网所需时间的趋势数据。
执行完全爬网的原因
搜索服务管理员执行完全爬网的原因包括:
服务器场中的服务器上安装了一个或多个修补程序或 Service Pack。有关详细信息,请参阅该修补程序或 Service Pack 的说明。
SSP 管理员添加了一个新的托管属性。
要重新对 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 网站上的 ASPX 页面编制索引。
要检测在上次对文件共享执行完全爬网之后对文件共享所做的安全更改。
解决连续的增量爬网失败问题。在极少数情况下,如果在某个存储库中的任何级别上执行增量爬网时连续失败了一百次,则索引服务器将从索引中删除受影响的内容。
已添加、删除或修改爬网规则。
要修复损坏的索引。
搜索服务管理员已创建一个或多个服务器名称映射。
分配给默认内容访问帐户或爬网规则的帐户已更改。
在以下情况下,即使请求执行增量爬网,系统也会执行完全爬网:
SSP 管理员停止了先前的爬网。
备份还原了内容数据库。
服务器场管理员已分离并重新附加内容数据库。
从未对此网站执行完全爬网。
更改日志不包含正在执行爬网的地址的条目。如果更改日志中没有对应于待爬网项的条目,则无法进行增量爬网。
分配给默认内容访问帐户或爬网规则的帐户已更改。
要修复损坏的索引。
如果在索引中检测到损坏情况,则根据损坏的严重程度,系统可能会尝试执行完全爬网。
在初始部署后,可以依据服务器场中的服务器以及承载内容的服务器的性能和容量来调整计划。
参考资料
最新修订时间:2023-05-26 16:34
目录
概述
定义
爬网内容
参考资料