搜索引擎分4个步骤分析关键词和文章

搜索引擎首先对要分析的网页进行净化处理;针对提取出的内容进行分词处理;对初步分词的结果进行去除无意义的词语;对关键词的权重进行确定分析

搜索引擎分4个步骤分析关键词和文章

一般来说,一个词语或短语能否成为文章的关键词,主要取决于这个词语或短语反应文章中心思想能力的大小。关键词与文章之间的相关性,也主要是为了说明任选的一个词语和短语,对于指定的文章,它反应这篇文章的中心思想或主题意思的能力有多少。关键词的抽取受到词语在文章中出现的位置,出现的频率以及词语的语义特征的影响。那么,搜索引擎到底是如何判断关键词和文章之间的相关性呢?在这里,笔者从自己的一些观点出发,产生了一些想法,应该抛砖引玉,得到大家的指点。

个人认为,搜索引擎应该是从以下几步来如何分析关键词和文章性的:

第一:搜索引擎首先对要分析的网页进行净化处理

网页净化主要是去掉网页中大量无用的广告、导航栏等网页模板噪声以及无意义的内容,如JavaScript脚本,CSS标记等内容。至于搜索引擎采用的是何种算法,则不为我们所知,但是个人估计应该是对网页进行划分为不同的快,通过衡量网页块的重要程度来判断出包含主题内容的块,然后提取出该块的内容,至于搜索引擎如何判别网页快的重要程度,那是另外一个课题。

第二:针对提取出的内容进行分词处理

个人认为,搜索引擎可能采用了某种算法,对内容先进行了词语粗分阶段,先得出N个概率最大的切分结果;然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词对初步分词的结果进行去除无意义的词语

搜索引擎通过对第二步的分词结果进行分析,去除一些语气词和形容词等非实意词和一些单词,同时还考虑到单字词所表达的信息不够完整也应当滤除。去除停用词通过建立一个停用词列表来实现。这样,通过去除这些无意义的词之后,剩下的就是有意义的,值得分析的词汇了。

第四:对关键词的权重进行确定分析

在完成对文章分词切分和净化工作之后,就要将文章所有关键词进行分析了,笔者的想法是搜索引擎将文本表示成Ⅳ维特征向量,每一维分量由关键词及其权重组成。一般认为,关键词在文中的权重的确定,主要由三部分组成,词频,位置和词义共同影响决定。而词频和位置对词语或短语的影响可以通过确定的算法加以确定,词义权重也有固定的算法进行分析计算。搜索引擎利用设定好的算法对上述关键词进行了计算和分析。从而得到最后的结果。

笔者认为,搜索引擎通过上面的步骤进行分析后,得到最后的结果,而笔者在这里谈谈自己对搜索引擎具体的分析方式,只是个人见解:

第一:搜索引擎基于关键词位置的权重

在文档中,关键字所在的位置对于搜索引擎判断某个关键字在页面的权重起到很重要的作用。比如说域名被搜索引擎认为是网站最固定的因素,例如:域名里面含有DVD关键字的域名,在用户检索关键字DVD的时候具有先天的优势。标题是网站的最宝贵的资源,搜索引擎认为标题是在浏览器标题栏里而显示,因为要显示给用户,所以它是文件最重要和最简洁的摘要。适当突出关键字在标题的比重非常有利于排名的提高。

第二:搜索引擎基于关键词出现的频率

网页中不同关键词的总数,这是一个很重要的方面。个人认为虽然关键词出现的位置和词频大小对关键词权重影响很大,但是词频大并不能决定该词语适合作为关键词。举个简单的例子,我们在一篇文章中对“美国’’进行优化,出现的词频很大,出现的位置也很重要,但是这个词还是不能赋予较高的权重,因为“美国’’也广泛的出现在其他的文献中,在这些文献中,“美国“也存在频率大和所在位置也比较重要。因此,对那些词频较高但又不适合作为关键词的词语赋予的权重应该较低。

第三:文档中重要关键词之间的距离

个人分析,文档中重要关键词之间的距离应该也是衡量关键词与文章的相关性的一个重要方面。

笔者认为,搜索引擎在进行以上一系列的处理之后,从而针对这个关键词给该文章一定的评分,当用户搜索某个关键词时,该评分高的文章排在前面的机会就大很多,当然这是排除了外链的影响。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年5月5日 10:36:00
下一篇 2024年5月5日 10:38:04

相关推荐

  • linuxjdk安装脚本,linux的jdk安装步骤

    在linux系统中怎么安装jdk 1、手动安装jdk,首先需要下载jdk,记住是linux版本的jdk,直接去官网下载就行了。上传到linux操作系统的桌面。 2、第一种:用包管理工具自动去云仓库中下载指定版本jdk并自动安装。用命令行方式 利用包管理(红帽系的linux 是 yum ,debian系的linux 是 apt )去自动下载与安装。 3、我们需…

    2024年5月23日
    5000
  • 黑客学习步骤图,黑客入门教学视频

    黑客如何学成 成为黑客的基础入门需要学习计算机编程、网络技术、操作系统、加密技术等相关知识。同时,需要具备好奇心、探索精神和解决问题的能力。想成为黑客,需要首先熟练掌握一种或多种编程语言,如Python、Java等。 学好黑客技术的方法有:学习多种编程语言、了解网络知识、学习使用多种操作系统、参与开源安全项目、学习密码技术、进行大量的实践等等。学习多种编程语…

    2024年5月23日
    5200
  • 黑客攻击需要学习什么,一般黑客攻击又哪些步骤,各步骤主要完成什么工作

    学生成为黑客的第一步从五本书开始 1、我推荐《黑客X档案》,可以接触到很多新技术,而且就算是菜鸟也看得懂(因为绝大部分读者都是初学者,所以这本杂志挺照顾菜鸟的)。 2、所以初学者不能贪多,应该尽量寻找一本书和自己的完整教材、循序渐进的进行学习。 3、从这一节开始,我们就真正踏上学习黑客的道路了,首先要介绍的是作为一名初级黑客所必须掌握的基本技能,学习这可以通…

    2024年5月22日
    4400
  • 增长黑客头像动漫学习步骤的简单介绍

    如何自己制作动漫头像 利用在线制图工具 除了手工绘图外,利用在线制图工具也是一种比较流行的卡通化头像方法。目前市场上有很多制图工具可以满足制作卡通头像的需求。 用一些捏脸卡通软件,如脸萌,或者是用一些捏脸网站(如picrew)提供的模版制作。如果学过绘画,也可以选择自己画一张。 首先,需要找到可用的工具。在百度搜索“自己的照片做成漫画头像”,就能找到很多实用…

    2024年5月22日
    4700
  • 0基础学习黑客的步骤,从零开始学黑客技术入门教程

    小学生入门黑客教程 1、编程是黑客必备的技能之一,初学者需要选择一门编程语言进行学习,比如Python、C++、Java等。可以通过在线课程、教程、书籍等方式学习,掌握编程基础和常用算法。 2、想成为一名黑客从这五本书开始入门1,《Python密码学编程》(第二版)本书是为对加密、破解或密码算法抱有浓厚兴趣的人士准备。 3、对于零基础的朋友第一步要做的是掌握…

    2024年5月22日
    6800
  • linux创建repo文件夹,linux创建文件步骤

    哪些选项linux提供软件源文件 虚拟机中linux中配置软件源文件有两种方式。 Linux软件源的设置方法 1打开数据源配置文件 vi/etc/apt/sources.list 添加相关的数据源,可以选择以下的数据源,不要写太多,否则会影响更新速度。 installed1列出所有已安装但不在YumRepository内的软件包信息命令:yuminfoext…

    2024年5月22日
    4600
  • 如何学习黑客第一步,黑客攻击的第一步骤是

    学生成为黑客的第一步从五本书开始 我推荐《黑客X档案》,可以接触到很多新技术,而且就算是菜鸟也看得懂(因为绝大部分读者都是初学者,所以这本杂志挺照顾菜鸟的)。 从这一节开始,我们就真正踏上学习黑客的道路了,首先要介绍的是作为一名初级黑客所必须掌握的基本技能,学习这可以通过这一节的阅读了解到黑客并不神秘,而且学习起来很容易上手。 书名:黑客攻防从入门到精通(命…

    2024年5月22日
    4700
  • excel秩和检验的实现过程步骤,秩和检验表格结果怎么展示

    怎样用Excel进行t检验? 首先我们选择打开excel输入数据,例如A组数据和B组数据进行比较。选择敲击键盘在空格中输入[=]并插入函数[T-Test]。Array1选择组A数据,Array2选择组B数据,并跟踪并输入输入2。 用Excel怎样进行t检验?打开excel输入数据,如A组数据和B组数据进行比较。在空格中输入【=】,再插入函数【T-Test】。…

    2024年5月21日
    7300
  • 搜索c语言代码,c语言搜索引擎

    c语言编程代码 C语言,是一种通用的、过程式的编程语言,广泛用于系统与应用软件的开发。具有高效、灵活、功能丰富、表达力强和较高的移植性等特点,在程序员中备受青睐。最近25年是使用最为广泛的编程语言。 C语言源代码,就是依据C语言规则所写出的程序代码,常见的存储文件扩展名为.c文件和.h文件,分别对应C源文件(source file)和C头文件(header …

    2024年5月21日
    6400
  • excel表格透析教程,表格透析步骤

    excel透视表怎么做 首先打开Excel,将要新建工作表的名称粘贴复制进Excel单元格中。选中所有的名称,然后选择菜单栏“插入-数据透视表”,显示出了的那个继续选择“数据透视表”。 首先在电脑上打开Excel表格后,选中任意有数据的单元区域,插入菜单,数据透视表快捷键。打开创建数据透视表对话框,确认数据透视区域,选择插入数据透视表的位置,默认是新建工作表…

    2024年5月21日
    5000

发表回复

登录后才能评论



关注微信