Elo很烂-较小的游戏更好的多人评级系统

我的游戏acolytefight.io是一个多人技能竞技场。 它看起来看似简单,但它被设计为高技能的游戏。 熟练的玩家将学习每种咒语的确切时机,速度,距离和行为,并学会预测和躲避敌人,使其成为最后一站。 自然,像这样的游戏需要评级系统。 每个人都想知道,谁是第一名?

该图显示,如果您与某个低于您500分的人比赛(也许您是经验丰富的选手,而他们是新手):

  • 如果获胜,您将获得+0.5的收益,或者
  • 如果输了,您将损失-9.5点

Elo认识到您是更好的玩家,在20场比赛中,您将赢19场,而他们将赢1场。因此,为了保持平衡,Elo使您的损失比胜利多19倍。 平衡允许评分系统仅衡量技能,而不衡量比赛次数。

用Elo表示这种19:1赢/输比率的另一种方式是说您有95%的获胜概率

问题:相对获胜概率不现实

在Acolyte Fight中,评分系统有很多迭代。 人们提出了很多(数学上不合理的)建议。 确定根源花费了很长时间。

根本原因是什么? Elo希望您的获胜概率遵循指数曲线,如下所示:

这说:

  • 如果您与稍微低于您(相差200点)的某人比赛,您将有76%的机会获胜。
  • 如果您与远低于您(相差400点)的某人比赛,您将有91%的机会获胜。

问题在于,Acolyte Fight的实际获胜率曲线实际上并非如此。 这些是超过100000场比赛的实际获胜率:

请注意,此处的实际曲线看起来与上面的图形完全不同。 确实没有指数曲线。 它更线性。 这是使我意识到必须更改评分系统的见解 。 如果我们选择一名顶级球员,并让他们反复与高,中,低级别的球员作战,直到我们对他们对每个人的胜率有了统计上的信心, 那么就没有理由让他们的胜率适合指数曲线。 为什么我们甚至使用指数曲线? 谁决定的? 他们基于什么数据?

为什么这不影响像DOTA 2这样的大型游戏?

我认为像DOTA 2这样的游戏的方程式中仍然具有指数曲线,尽管事实可能是错误的。 不影响他们的原因是他们的媒人只会将具有类似技能的球员聚集在一起 。 与我的小型游戏不同,他们很少需要准确地评估高级玩家与其他技能水平的玩家的表现。 如果他们这样做的话,我相信它将无法正常运行。

答案:Aco评级系统

我设计了一个称为Aco评级系统的新评级系统,该系统类似于Elo,但它解决了一些关键问题。

  1. 实际获胜率:获胜几率是根据过去100000场比赛的实际数据计算得出的。 这意味着它不需要拟合指数曲线。 例如,系统可以查找其数据库,并看到1800个评级玩家与1300个评级玩家的对决会导致更高级别的玩家赢得76.3%的时间。 如果高级玩家的表现优于后者,则他们会随着时间的推移获得积分,这是基于实际数据的公平系统。
  2. 新手压制:当您在某人的评分远低于您的情况下获得/失去的积分会减少。 这使人们更加快乐,因为他们不会给新手失去太多分数。 取而代之的是,他们只能给与他们的技能水平相近的人失去最多的分数,这感觉公平得多。
  3. 小增量:通常,每场比赛您将获得或减少大约1点。 这意味着每个游戏在事物方案上都是微不足道的,并且在排名模式下玩每个游戏也没有什么坏处。 诸如TrueSkill或Glicko之类的竞争系统表示,它们的优势在于,您可以更快地收敛自己的评分,有时可以从一个游戏中获得50或100分。 我实际上发现这是一个缺点。 Aco缓慢的评分上升意味着,如果您到达排行榜的顶部,则可以肯定您确实赢得了该排名,而不仅仅是由评分系统中的不确定性错误引起。
  4. 每日衰减:一个人的等级每天下降5点。 这样可以确保鼓励每个人保持比赛排名并捍卫自己的头衔。 为了保持真实等级不变,衰减与等级分开存储,上限为100,每个游戏抵消1点衰减。 以前,人们会驻扎在最高的排行榜上,只是不玩游戏以保持自己的位置,所以这并没有什么乐趣。

响应

尽管没有达到零,但“评级系统是垃圾”的投诉已大大减少。 有没有完善的评分系统? 可能不会。

结论

Aco评分系统允许具有不同技能水平的人们进行公平竞争。

只有在与其他具有类似技能水平的人一起玩时,Elo才真正起作用。 它是在我们可以对数十万个游戏进行数据挖掘之前一次发明的。 我希望即使对于国际象棋,获胜概率曲线实际上也不是指数的。

使用Aco评分系统,即使您没有与其他具有类似技能水平的人匹配,您仍在统计学上与他们竞争。 这意味着它适合不能依赖大型玩家群和配对系统的小型游戏。

每天加入成千上万的玩家-在此处玩Acolyte Fight: acolytefight.io