搜索引擎如何尽可能抓取重要性高的网页

首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页,重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定

搜索引擎如何尽可能抓取重要性高的网页

网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?如何量化重要性呢?

重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。

定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。

定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。

定义平均链接深度为ID(P),此为笔者所创。ID(P)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。

最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:

I(P)=a*IB(P)+β*IL(P)

平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。

尽管这样看来已经足够完美,事实上,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年5月6日 21:15:34
下一篇 2024年5月6日 21:17:41

相关推荐

  • c语言获取网页源码,c语言网页编程

    怎么通过C语言读取网页里面的数据 1、使用WebBrowser控件,可以操作网页中的元素、控件,调用网页的JS方法。 可以使用MFC集成WebBrowser。 QT中,有与WebBrowser类似的QWebEngineView控件。 2、解决方法:当使用的输入法为微软拼音输入法2003,并且隐藏语言栏时(不隐藏时没问题)关闭RealOne就会出现这个问题,因…

    2024年5月23日
    5400
  • linux网页设计工具,linux简单网页

    网页设计流程 视觉性的语言运用 对网页页面设计其实是一种视觉性的语言运用,在设计中对版式的设计非常讲究,一般会通过对多种元素进行空间化的组合,从而达到一种和谐的美感来。 搜集材料 明确了网站的主题以后,你就要围绕主题开始搜集材料了。要想让自己的网站有血有肉,能够吸引住用户,你就要尽量搜集材料,搜集得材料越多,以后制作网站就越容易。 在图像软件中设计网页效果图…

    2024年5月22日
    4800
  • 搜索c语言代码,c语言搜索引擎

    c语言编程代码 C语言,是一种通用的、过程式的编程语言,广泛用于系统与应用软件的开发。具有高效、灵活、功能丰富、表达力强和较高的移植性等特点,在程序员中备受青睐。最近25年是使用最为广泛的编程语言。 C语言源代码,就是依据C语言规则所写出的程序代码,常见的存储文件扩展名为.c文件和.h文件,分别对应C源文件(source file)和C头文件(header …

    2024年5月21日
    6400
  • 网页与c语言,网页c语言在线编译

    网页代码和c语言都属于编程吗? 1、c语言。元老级程序语言。php就是c和c+开发的。编程。写php代码。html代码。c代码都叫做编程。api Application Programming Interface,应用程序编程接口 这个东西没法说是哪有。这个接口就是一个集成功能的一个按钮似的东西。 2、需要考虑起点 编程需要一定的数学知识做为支撑,要有良好的…

    2024年5月21日
    5500
  • 网页中的内容复制到excel表格中,网页复制数据到excel

    Excel表格中怎么将网页数据导入 1、①单击数据–导入外部数据–新建Web查询。图1②勾选我可以识别此内容,允许播放,单击继续按钮。图2③在地址栏输入网站地址,转到此网站里面。图3④跳转到指定网页,点击箭头按钮,然后导入数据到Excel。 2、首先我们打开一个Excel的新工作表。 点击“数据”选项卡下的“获取数据”,选择“自其他源…

    2024年5月20日
    5400
  • 关于excel转换htm网页格式的信息

    如何将word,excel,powerpoint等转换成html或pdf 1、方法1:使用在线工具或软件使用简单的在线转换工具。最简单便捷的方法是将你的Word文档复制粘贴到TextFixer转换器中,或者将文档上传到Online-Convert.com。 2、首先,用Word打开一个文件,然后点击工具栏中的图标,会出现图2这样的对话框,使用系统的默认值就单…

    2024年5月19日
    3700
  • linux通过命令访问网页,linux命令浏览网页

    如何使用linux命令打开网页 )、sudo命令:sudo命令用来以其他身份来执行命令,预设的身份为root,简单来说就是提升权限,因为apt-get install是要安装程序,这个需要管理员权限,因此借助于sudo命令提权。 在命令符界面浏览网页可以使用lynx,links, w3m等的使用方式都很类似,以w3m为例:安装w3m浏览器:sudo apt-…

    2024年5月18日
    4100
  • java打印当前网页内容,java打印html

    java传值到网页中并在网页上打印出来的问题。 1、后台到前台,程序经过tomcat,以及框架容器,以及web.xml。如果在不需要编码的情况下,要统一这些框架,容器,配置文件的编码。好好检查检查。 2、第一种几乎不用编写程序,最简单快捷,这里会遇到几个问题,只能打印表单内容,按钮不希望打印出来;页眉页脚不想打印出来;IE的titile不想打印出来。 3、代…

    2024年5月18日
    3500
  • c语言读取网页cookies,c语言打开网页

    如何用C语言打开网站? 调用connect连接对端主机,如果失败,判断当时的errno是否为EINPROGRESS,也就是说是不是连接正在进行中,如果是,转到步骤3,如果不是,返回错误。 URLDownloadToFile(NULL, http://10.1/txt, C:\\temp\\txt, 0, NULL);下面处理C:\temp\txt就可以了。这…

    2024年5月17日
    3600
  • 网页游戏java代码,java编程游戏网站

    求用java语言制作猜物品价格的小游戏的程序代码 (2) 驱动程序未正确安装,此类故障一般表现在显卡驱动程序之止,倘若由此引发,则打开一些游戏程序时就会产生非法操作,有时打开一此网页也会出现这种程况。(3) 内存质量不好,降低内存速度也可能会解决这个问题。 //这是个聊天程序, 在ECLIPSE 运行 Client.java 就可以了。 程序返回提示信息,提…

    2024年5月17日
    3900

发表回复

登录后才能评论



关注微信