对网页进行排序的几种投票机制分析

2:二选制,每人一票;3:n选制,每人一票;4:即刻复选制,每个民众对候选人进行排序;5:上行复选制,跟4类似;6:多赛制,民众对候选人排序

对网页进行排序的几种投票机制分析

前些天读了一本《选举的困境》,其中有一章,从美国的选举制度说起,介绍美国选举制度的不足,然后针对其不足,提出种种改善,然而每种改善都有其各自的问题,其中的变化很有趣。

先说美国选举制度,美国的总统选举是一种“赢者通吃”的方式,每个州根据其人口多少,有几十或几百的“州票”,州里的人对总统候选人进行选举,在某个州获得票最多的那个候选人,获得这个州所有的“州票”,然后统计所有候选人的“州票”多少,获得最多“州票”的候选人获胜。

这样制度的问题是显然的,比如如果只有两个州,A州5个人,而B州4个人,州票也分别是5和4,如果某候选人X在A州以3:2获胜,另一个候选人Y在B州以4:0获胜,这样显然候选人Y在全国范围内获得了6张票,而候选人X只有在A州的3张票,但是由于“赢者通吃”,X获得了A周的全部5张“州票”,Y只获得了B周的4张“州票”,在全国只有1/3民众支持的X居然获得了选举的胜利。

这样的情况在2000年美国总统选举中就出现过,小布什的州票领先于戈尔,然而在全国民众中统计支持戈尔的人数却是大于小布什的,当然戈尔输给小布什还有另一个原因,这里按下不表。

如果放在算法领域,可以看出这里的问题在于,为了统计结果R(最适合的总统人选),找到了一个特征A(每个民众的投票),而决定结果R的,却不是特征A,而是由特征A推导出来的特征B(州票),在特征A向特征B的推导过程中,信息丢失了(每个洲的支持百分比不一样)。

“赢者通吃”这种制度的具体历史原因先不说,有兴趣的朋友可以去看原著。解决这种问题的最直接方案就是从“赢者通吃”变成直选,也就是一人一票,直接统计票数,然而这样也会遇到一系列问题。

在谈那一系列问题之前,先把要解决的问题抽象一下:

有n个候选人,每个选民对这n个候选人投票,最终在n个候选人中选出最合适、最符合民意、也符合逻辑的那个人。

方案1一票制,每人一票,选出自己最喜欢的候选人,对结果进行统计,得票最多的那个人当选。

这样做的问题是会导致作者定义的一种“鹬蚌困局”,举例说,如果有ABC三个候选人,其中BC政见比较类似,支持B的人也比较支持C,反之亦然,在全民中,喜欢BC的人占多数,A的政见和BC相反,支持A的人在全民中占少数。这样导致的后果就是,BC获得的票会比较分散,而A获得的票比较集中从而获得胜利,如果BC中有1人不参加选举,票就会集中到B或者C一个人的手中,从而使多数选民的支持者当选。前面按下不表的戈尔失败的另一个原因,就是有人认为有跟戈尔政见类似的耐德的参与,他分散了部分戈尔的选票。

可以对此问题有所改善的方案叫做“二选制”。

方案2:二选制,每人一票,如果无人获得大于50%的支持,则将得票最高的两个候选人拿出来,再进行一轮选举,得票多的人获胜。

法国总统选举就是这样的二选制,但是这样的方法只能改善“鹬蚌困局”,而不能彻底解决,2002年的法国总统大选就出现了类似的情况,当时支持左派政见的民众较多,然而在二选制下,最终的前两名却是一个右派和一个极右派。出现这种情况的原因是当年有16个总统候选人,且多数是持左派政见者,这样就导致左派的票极端分散。

方案3:n选制,每人一票,如果无人获得大于50%的支持,则去掉支持最少的候选人,再进行一轮投票,若依旧无人获得大于50%的支持,再去掉得票最少的候选人,直到有人大于50%支持为止。

2001年奥委会决定北京为2008年奥运会主办城市的时候,就是用的这样的制度,在第一轮投票里大阪被淘汰,北京在第二轮就获得了半数以上的支持,从而当选。

n选制的问题在于不实用,如果是奥委会这种只有几百个人投票的情况还可以使用,如果类似前面法国总统选举,有16个候选人,举国上下最多可能进行15次投票,成本太高。

方案4:即刻复选制,每个民众对候选人进行排序,如果某个候选人获得了50%以上的首选,则直接获得胜利,否则淘汰票数最低的候选人,并且把票数最低候选人的得票中的第二候选人拿出来,分给对应的候选人,如果有人获得50%以上,则当选,否则再淘汰一位最低的,并且把他票分给里面排序最高的且未被淘汰的候选人,如此往复。

爱尔兰总统选举和伦敦市长选举采用的是类似的方案,此方案也有问题,试想如此场景:选民共10人,中间派候选人是3人的首选,左派和右派的候选人分别是4人的首选,当然左派选民最讨厌右派候选人,而右派选民也最讨厌左派候选人,而左派右派的民众对中间派候选人倒是都可以接受,不管是即可复选制还是n选制,中间派候选人都会在第一轮被淘汰。而中间派候选人则是全体民众都可以接受的人,也最能调和各派之间矛盾,最和谐。

这个方案的本质问题是,虽然每个选民可以对候选人排序,但是在第一轮的时候却只考虑了第一选,没有考虑选民的二、三选。

方案5:上行复选制,跟方案4类似,只不过第一轮淘汰的不是支持最少,而是反对最多的候选人(获得最多末选票的候选人)

再看上面提到的情况,中间派候选人由于不是任何人的末选,所以第一轮淘汰的是左派或者右派,再第二轮选举中,中间派的候选人就可以获胜了。

方案5也有方案5的问题,考虑这样一种情况,只有两个候选人AB参选,选民9人,其中6人喜欢A而讨厌B,3人喜欢B而讨厌A,无论按照之前的哪种方式,都会是A获胜。但是现在又多了两个候选人C和D,喜欢B的3人中,都是把A列在最后一个候选的,而喜欢A的6人的末选,却是BCD各2票,这样,在第一轮选举中,A就由于获得了最多的末选票被淘汰了,而通过精心的构造例子,完全可以使B最终当选。仅仅由于CD参选或者不参选,A和B之间的胜负关系就发生了大逆转。

实际使用此方案的例子不多,只有在公元前507年的雅典有类似的方案,不是让民众投支持票,而是投反对票,把反对最多的人投出局。

方案6:多赛制,民众对候选人排序,然后候选人之间两两pk,统计每一张选票上看候选人A在候选人B前面还是B在A前面,如此找到获胜场次最多的候选人来赢得选举。

这样的问题是可能导致循环胜负,如ABC三个候选人,有3个民众,投票分别是ABC,BCA,CAB,可以看出AB之间A获胜两次,A>B;BC之间B获胜两次,B>C,AC之间C获胜两次,C>A,这样就构成了一个A>B>C的循环。这个是不是有点像足球联赛的记分制啊,如果积分相同,足球比赛中可以再看净胜球、进球、胜负关系等,但是作者并没有在这个方面进行展开,而是介绍了另一种方式:博达制。

方案7:博达制,民众对候选人排序,假如有n个候选人,第一位的候选人得n分,第二位得n-1分,以此类推,然后统计每个候选人的总分,获得最多分的获胜。

有人对博达制的批评是:可能有选民会利用这种方式进行作弊(投“策略票”),最支持B的候选人本来心目中的排序是B>A>C,但是由于相对A,他们还是更喜欢B,因此,为了把B拉上来,就得把A拉下去,他们的投票就变成了B>C>A。博达对此批评的回应是:我的制度只适用于诚实的投票者。

而这本书的作者却认为博达制的“策略票”问题没那么严重,如果无法准确预测民意和精确控制策略票的投法,有可能因为用力过猛,不但把A拉下来了,反而让C获得的支持票增加,这样就使得最支持B的那些人的“策略票”反而使得他们最讨厌的C当选了,当年在IMDB上就发生过类似一幕:

电影《蝙蝠侠6》上映后,蝙蝠侠的粉丝们觉得这部片太酷了,于是就想把蝙蝠侠6投成IMDB第一位,于是他们疯狂的给蝙蝠侠6打高分,而同时,也纷纷的给当时的IMDB第一《教父》投低分,导致的结果就是用力过猛,教父变成了第三名,原来的第二肖申克的救赎(TSR)变成了第二(原来的第二是排在教父后面,新的第二是排在蝙蝠侠6后面),而后来,随着疯狂粉丝的热情消退,理性的意见占据了上风,蝙蝠侠6的得分逐渐下降,跌到了第10。而教父还是在肖申克的救赎后面,很久没有回去了。

博达制是否有其他问题呢?

以上只是对这本书第14章的一个笔记,也仅仅针对“多候选人单职位”问题进行了讨论,书的后面还会对“多候选人多职位”的情况继续探讨,也就是根据每个人对候选人的排序,来决定最终的候选人排序。

回到搜索引擎领域来,如上策略的变迁会给我们一些启示,先看看之前抽象出来的问题:

有n个候选人,每个选民对这n个候选人投票,最终在n个候选人中选出最合适、最符合民意、也符合逻辑的那个人。

这很像搜索引擎在解决的问题:

系统里有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链、文本相关性等)对n个网页有不同的打分,如何根据这些特征的“投票”,选出最适合放在第一位的网页呢?

从选举的例子中,我们可以得到的几个启示:

1. 设计算法时,要避免出现“赢者通吃”带来的信息丢失问题。

2. 不要因为某几个特征特别好,就把某个网页排到最前,或者因为某几个特征特别差,就把某个网页抛弃。

3. 最合适放在首位的网页不一定是在每个特征上都最好,而应该是能够兼顾所有特征,综合表现最好的那个。

4. 搜索引擎使用者对搜索结果的点击行为,可以看成是对搜索结果进行的“投票”,这样的“投票”信息的使用方式,也要注意考虑是否会带来选举过程中出现的种种不合理。

以上提到的种种选举方案,仅仅是对“多候选人单职位的”的情况进行讨论,而搜索引擎面对的问题,则更类似于“多候选人排序”的情况,也即:

系统里有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链、文本相关性等)对n个网页有不同的打分,如何根据这些特征的“投票”,决定n个网页的顺序?

而这个“多候选人排序”问题,是有一个“不可能的民主”的理论的,该理论的大意是,“合理”的民主应该满足3个条件:

1. 如果选民都认为A比B好,那么最终结果应该也是A比B好

2. 没有“独裁者”,也即,不存在这样一个人,无论别人怎么排序,最终结果的排序都和这个人的排序一致

3. 无关因素独立性,也即,在第一次投票完成后,A排在B前面,现在进行第二次投票,如果所有人都没有改变自己投票中A和B的相对顺序,那最终结果应该也是A在B前面

而通过数学的证明,可以得出结论:如果某种选举方式满足条件1和3,则必然不满足2,也即必然存在“独裁者”,这个问题的证明,可以参考这篇博客:http://roba.rushcj.com/?p=509

根据“不可能的民主”理论,和搜索引擎结合起来看,似乎搜索引擎很难给出一个合理的网页排序,但是搜索引擎和投票又似乎有所不同,有两个角度可以破解

1. 认为条件3过于强,需要弱化。

2. 也许在网页排序问题上,真的存在这样一个“独裁特征”,这个“独裁特征”从目前看来,最适合的应该就是“用户满意度”了,按照用户的满意程度来排序网页,就是最合理的网页排序。如何衡量“用户满意度”呢?这就是我们一直在努力的。

by liangaili

文章来源:百度搜索研发部官方博客

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年5月4日 22:54:50
下一篇 2024年5月4日 22:56:57

相关推荐

  • java运行找不到符号,java 错误 找不到符号遇到的几种情况

    Java.找不到符号? 1、Int中的I是i的大写,你好像写成了数字一(1)或l(L的小写)。 2、(1)找不到符号:这是因为你要调用的构造方法中有 没有参数的构造方法,而你重写了有参数的构造方法,但是没有写无参数的构造方法,这是一个基础知识。 3、通常情况下,我们在编写java文件时,会有引用到自已定义的一些类,如果按通常的javac *.java的形式来…

    2024年5月23日
    5100
  • java四种循环,java有几种循环语句

    什么是循环?Java中有哪些循环? 循环的意思就是让程序重复地执行某些语句。在程序设计时,常常需要处理大量的重复动作,采用循环结构可以降低程序书写的长度和复杂度,可使复杂问题简单化,提高程序的可读性和执行速度。 就是循环遍历 出0-9 下面说得具体点 循环语句使语句或块的执行得以重复进行。Java 编程语言支持三种循环构造类型:for,while 和 do …

    2024年5月23日
    4300
  • c语言获取网页源码,c语言网页编程

    怎么通过C语言读取网页里面的数据 1、使用WebBrowser控件,可以操作网页中的元素、控件,调用网页的JS方法。 可以使用MFC集成WebBrowser。 QT中,有与WebBrowser类似的QWebEngineView控件。 2、解决方法:当使用的输入法为微软拼音输入法2003,并且隐藏语言栏时(不隐藏时没问题)关闭RealOne就会出现这个问题,因…

    2024年5月23日
    5500
  • linux网页设计工具,linux简单网页

    网页设计流程 视觉性的语言运用 对网页页面设计其实是一种视觉性的语言运用,在设计中对版式的设计非常讲究,一般会通过对多种元素进行空间化的组合,从而达到一种和谐的美感来。 搜集材料 明确了网站的主题以后,你就要围绕主题开始搜集材料了。要想让自己的网站有血有肉,能够吸引住用户,你就要尽量搜集材料,搜集得材料越多,以后制作网站就越容易。 在图像软件中设计网页效果图…

    2024年5月22日
    4800
  • linux处理闰秒死锁,linux的锁机制

    死锁怎么解决? 解除死锁:发生死锁后,撤销进程,回收资源,分配给正在阻塞状态的进程。预防死锁的办法:破坏请求和保持条件:一次性的申请所有资源。之后不在申请资源,如果不满足资源条件则得不到资源分配。 强制重启电脑:按住电源按钮长按数秒钟,直到电脑关闭。然后再次按下电源按钮以重新启动电脑。进入安全模式:在电脑启动时按下F8键,进入安全模式。在安全模式下,可以尝试…

    2024年5月22日
    3800
  • java采用什么机制来替代多重继承,java采用什么机制来替代多重继承方式

    JAVA中什么是继承? Java中类的继承只能是单继承(单根继承),即一个类只能继承一个父类,但是一个类可以由多个类来继承它。Java会给每一个没有设置父类的类,自动添加一个父类就是Object 。 Java继承是面向对象的最显著的一个特征。继承是从已有的类中派生出新的类,新的类能吸收已有类的数据属性和行为,并能扩展新的能力。 继承是面向对象最显著的一个特性…

    2024年5月22日
    4000
  • c语言的合法标识符,c语言中合法的标识符有以下几种字符组成

    在C语言中什么是合法标识符,什么是非合法标识符? C语言标识符是指用来标识某个实体的一个符号,在不同的应用环境下有不同的含义,标识符由字母(A-Z,a-z)、数字(0-9)、下划线“_”组成,并且首字符不能是数字,但可以是字母或者下划线。 C语言中,用户定义的标识符,合法条件:第一:组成标识符的字符必须是英文字母、数字、下划线,不可以是其他字符。第二:标识符…

    2024年5月22日
    4300
  • 网页与c语言,网页c语言在线编译

    网页代码和c语言都属于编程吗? 1、c语言。元老级程序语言。php就是c和c+开发的。编程。写php代码。html代码。c代码都叫做编程。api Application Programming Interface,应用程序编程接口 这个东西没法说是哪有。这个接口就是一个集成功能的一个按钮似的东西。 2、需要考虑起点 编程需要一定的数学知识做为支撑,要有良好的…

    2024年5月21日
    5500
  • java核心机制,JAVA核心机制

    java的核心机制是什么啊 1、【答案】:style=color:#f10b00;Java语言style=color:#f10b00;包含三种style=color:#f10b00;核心机制style=color:#f10b00;:Java 虚拟机、垃圾收集机制和代码安全检测。 2、JVM是Java虚拟机的简称,它是Java语言的核心,负责解释和执行Java…

    2024年5月21日
    5000
  • java事件监听机制,java监听事件和处理事件由什么完成

    关于JAVA事件监听 正确。java委托事件模型的使用首先由事件源发起特定事件,并将事件发送给一个或多个事件监控器。其次监控器在此过程中一直处于等待状态,直到接收到事件,然后处理事件并返回。 在java的设计模式中,有一种模式叫:观察者模式,和这个类似。举个例子,本例子是一个简单的监听当数据发生变化时要做的操作。 java中的事件监听不是通过线程实现的,它是…

    2024年5月21日
    4300

发表回复

登录后才能评论



关注微信