浅谈搜索引擎的3种中文分词技术,词典、统计和理解

基于词典匹配是指将目标词或句与已有的词典中的词条进行匹配处理;基于统计是扫描计算出字或词或句出现的统计概率;现在搜索引擎逐渐做到去理解句子

浅谈搜索引擎的3种中文分词技术,词典、统计和理解

最近有朋友问我的站点除了把合肥SEO、合肥网站推广做上首页,而安徽SEO、安徽网站推广、安徽网站优化也排在百度首页。所以借着这个契机,跟大家聊聊百度的中文分词技术,也都是自己的一些理解,有更多的想法欢迎交流。

SEOer都知道,搜索引擎工作原理中有一步预处理,将抓取的页面进行几道工序处理下,为之后的排名机制做好初步准备。在预处理过程中,就有分词这一道技术工序。英文是以一个单词作为基本单位,单词之间用空格分割连成一句话,中文是以字为单位中间没有连接符成为一句话。所以,中文分词与英文分词差别很大。而从现有的搜索引擎特别是百度的中文分词研究表明,主要是基于词典匹配和基于统计。

1、基于词典匹配是指将目标词或句与已有的词典中的词条进行匹配处理,扫描之后匹配成句、词、字形式。

(1)按照扫描方向不同,可分为正向匹配和逆向匹配。

(2)按照匹配长度优先级不同,可分为最大匹配和最小匹配。

(3)按照扫描方向和长度优先混合匹配,可分为正向最大匹配和逆向最大匹配等。

2、基于统计是指分析大量数据样本,扫描计算出字或词或句出现的统计概率,几个字乡邻出现越多,就越能形成一个词,同样的可以形成句。

基于词典匹配准确性是取决于词典的完整性和时效性,速度很快。基于统计的分词方法更为灵活,同时有利于消除歧义,但速度较慢。搜索引擎的中文分词往往是将这两种分词技术糅合在一起使用,以提高速度和准确性。这是我们所说的中文分词技术,那么同样的基于这些中文分词技术,我们要最大化利用,回归合肥SEO博客,谈谈对中文分词技术的应用和揣测。

1、从关键词合肥SEO”会被拆分为“合肥”+“SEO”,“合肥网站推广”会被拆分“合肥”+“网站”+“推广”或者“合肥”+“网站推广”或者“合肥网站”+“推广”等形式。这种分词可以很好的理解,并在我们的站点中得到广泛的应用。百度搜索“合肥SEO”前20个结果页中只有一个不是完全匹配,“合肥网站推广”前20个结果只有四个不是完全匹配

2、从关键词“安徽合肥SEO”可以拆分为“安徽”+“合肥”+“SEO”或“安徽合肥”+“SEO”或“安徽”+“合肥SEO”,但是这里可以基于统计拆分为“安徽SEO”+“合肥”。依此,我博客的标题就能拆分为“安徽”+“网站推广”、“安徽”+“网站优化”。从效果上看,有这几点因素:

(1)有个主次之分,将竞争力大的词放一起,竞争力小的词进行组合拆分。我博客主做“合肥SEO”,分词“安徽SEO”

(2)站点中要出现拆分过的词,如“安徽SEO”等,这是在提醒搜索引擎是这样的分词,还可以将它们加粗、反显、锚文本等突出分词效果。

(3)在外部链接或友情链接建设过程中,除了主做关键词外,还要做拆分的词。

3、现在还有一种观点就是搜索引擎逐渐做到去模拟中文语法,去理解句子。“安徽合肥SEO-合肥网站推广-合肥网站优化”完全可以拆分为“安徽SEO”+“合肥SEO”+“安徽网站推广”+“合肥网站推广”+“安徽网站优化”+“合肥网站优化”。当然汉语的博大精深,目前的机器语言还是很难做到基于理解的分词技术。

最后要说的是,之所以前锋SEO博客的中文分词能做到如此效果,这与其anhuiseo域名分不开的。当然,这很适用百度搜索引擎,谷歌好像不太灵光。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年5月5日 08:05:01
下一篇 2024年5月5日 08:07:09

相关推荐

  • javapoiapi中文,poi java

    poi是什么意思 1、“poi”是(Program of Instruction )教学大纲的意思。POI是“Point of Interest”的缩写,可以翻译成“兴趣点”,也有些叫做“Point of Information”,即“信息点”。 2、“poi”是(Program of Instruction )教学大纲的意思。“poi”释义①POI是“Po…

    2024年5月23日
    4300
  • linux汉子显示问号,linux中文显示问号

    linux命令模式下出现问号,请问怎么解决 1、修复方法:第重启Linux服务器之后,会在这个界面停住的:giverootpasswordformaintenance(ortypecontrol-Dtocontinue):这候输入Linux服务器root密码,回车即可进入一个简单的命令操作界面,这里如下输入fsck-y。 2、linux vi中按ESC,进不…

    2024年5月23日
    4100
  • linux匹配中文开头,linux匹配字符串

    linux语言支持中文是暗的 把中文拖动到English上面就可以了。这是一个排序列表。 你选的时候是安装过程使用的语言,后面也只设置了地区什么的,cd版本身因为容量的问题就没有太多语言支持的啊。DVD的好一些。没什么的,英语的话不会影响使用,如果能联网或者有DVD光盘可以安装上中文语言的。 中文字符在终端下无法显示,可以打补丁实现,不推荐。 或者把你的语言…

    2024年5月23日
    4900
  • linux服务器时间格式英文中文的简单介绍

    如何改变linux服务器系统时区和时间 1、inux修改时间命令是date-s+时分秒。修改linux系统时间。root使用date指令:date -s 只修改日期,不修改时间,输入:date -s 2021-04-02。只修改时间,输入:date -s 12:00:00。 2、打开linux系统,在linux的桌面的空白处右击。在弹出的下拉选项里,点击打开…

    2024年5月22日
    4700
  • kalilinux中文社区,kalilinux2020设置中文

    kalilinux的安装教程 1、然后您将能够在Microsoft商店中找到,下载并安装KaliLinux应用程序;安装KaliLinux;启动应用程序后,您需要创建一个默认的UNIX帐户作为安装过程的一部分,并添加一个密码。 2、点击文件 -新建虚拟机 选择 – 自定义(高级)硬件兼容性选择 -Workstation 5-x 点击“稍后安装操作…

    2024年5月22日
    10200
  • javaservlet中文乱码,servlet解决中文乱码问题

    javaweb怎么处理中文乱码 获取 HTTP 请求中的中文参数时可能会有乱码,所以先将字符串变回字节数组,然后再按照 UTF-8 进行编码。 通过浏览器调用servlet,页面显示乱码。 采用相同的格式去接收(ISO-8859-1),然后用能解析的编码(utf-8)去转换。这样我们就能得到能兼容中文的格式了。这样处理之后发往前台。 读取文件的时候如果是用的…

    2024年5月22日
    3500
  • 关于初级黑客中文学习网站的信息

    信息安全技术专业的相关学习网站有哪些? 关于学习类的网站有掌门1对多贝、网易云课堂、慕课、传课、CSDN、我要自学网等等。 网络安全主要集中在大型城市,如北京上海广州深圳等,那里安全公司特别多,如360,天融信,奇安信等,所以学习网络安全建议选择这些城市。 专业课程 专业基础课程:计算机硬件基础、计算机网络技术、程序设计基础、数据库技术、Web应用开发、信息…

    2024年5月22日
    4100
  • java中文字符串操作,java 中文字符串

    java语言中如何获取字符串中汉字的个数 1、String[] strs = parent.split(son, -1); //用son字符串批分字符串,-1是为了避免在最后出现连续的son字符串并且没有内容。 2、用Pattern类去匹配除了所有字母符号和数字,剩下的就是中文了。 但是这样只能判断出中文,词语的话得写一个词库才行,逐个匹配. 嗯嗯,这是我的…

    2024年5月22日
    4500
  • java中文转unicode,java中文转ASCII编码

    用eclipse写java时,怎么把中文字符转换成unicode string.getbytes(ISO646-US)Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,“汉”这个字的Unicode编码是U+6C49。 } unicode =…

    2024年5月22日
    3500
  • javapattern判断中文的简单介绍

    在java中如何判断一个字符串是中文的还是英文的 1、java如何判断一个字符是不是中文的代码是:public static boolean isChinese(char c) { return c = 0x4E00 && c = 0x9FA5;// 根据字节码判断 }。Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言。 2、Ja…

    2024年5月20日
    4300

发表回复

登录后才能评论



关注微信