Pregunta:
Ajuste ponderado para Elo relativo
Andrew Latham
2012-09-05 18:36:43 UTC
view on stackexchange narkive permalink

Estaba viendo mis mayores sorpresas el otro día y me di cuenta de que el resultado no era satisfactorio. La mayoría de ellos fueron sorpresas de 500-600 puntos cuando todavía tenía una calificación muy baja (es decir, 800 superando a 1300), mientras que las sorpresas que considero las más grandes han sido las de 150-200 puntos anotados como jugador A o experto. De manera similar, sería una sorpresa mucho mayor si un 2650 derrotara a Levon Aronian de lo que sería un 1500 para vencer a un maestro. Parece que cuanto más altas son las calificaciones, más puntos importan: una diferencia de 100 puntos importa mucho más cuanto más alto asciendes.

¿Alguien puede pensar en una forma ponderada o logarítmica de representar las calificaciones Elo en algún tipo de escala para que esto se represente con precisión y los jugadores se puedan comparar de manera coherente, o tal escala ya existe?

Cuatro respuestas:
#1
+7
Andrew
2012-09-05 18:54:22 UTC
view on stackexchange narkive permalink

Creo que el fenómeno que estás describiendo se debe a la variabilidad en el juego en niveles más bajos. Elo se define en función de la probabilidad estadística de que un jugador venza al otro.

Aquí está la fórmula exacta para obtener la puntuación esperada para un jugador (calificación = Ra) frente a un oponente (calificación = Rb):
ELO Rating formula

Esto significa que teóricamente, un jugador 800 tiene la misma probabilidad de vencer a un jugador 1000 que un jugador 2200 de vencer a un jugador 2400.

Obviamente, este no es el caso porque en los niveles más bajos, hay una variación mucho mayor en la resultados. Esta diferencia se refleja bastante bien en el Sistema de clasificación de Glicko. Básicamente, un jugador tiene una calificación y una desviación de calificación (RD) que representa qué tan bien establecida está la calificación de un jugador. Entonces, en su caso, cuando tenía una calificación de 800, lo más probable es que estuviera más cerca de 1100 o 1200 de fuerza, pero su calificación aún no había alcanzado su fuerza. Una de las fallas fundamentales en todos los sistemas de calificación es que la calificación siempre va por detrás de la fuerza. Si la USCF usó el sistema Glicko, estas primeras victorias habrían resultado en un salto de calificación mucho mayor de lo que realmente sucedió, y su oponente también habría perdido menos puntos.

Entonces, para resumir, si bien los sistemas de calificación no son perfectos y su fuerza con frecuencia estará por encima de su calificación, un 800 venciendo a un 1000 y un 2600 venciendo a un 2800 son igualmente probables desde un punto de vista puramente matemático.

La respuesta de Andrew ya dice esencialmente lo que voy a decir, pero podría ser una reformulación útil. Una calificación es solo una estimación del valor real de un parámetro (fuerza de juego), y ese valor cambiará con el tiempo. Dado que un jugador más débil tiene el potencial de aumentar rápidamente ese valor, mientras que un jugador fuerte no lo hace, podemos esperar que las calificaciones de los jugadores más débiles sean generalmente estimaciones más bajas que las de los jugadores más fuertes, por lo que deberíamos ver mayores sorpresas en esos niveles. también. El RD del sistema Glicko proporciona un indicador explícito de la confianza que se puede tener en determinadas calificaciones / estimaciones.
#2
+1
D M
2018-05-21 06:59:15 UTC
view on stackexchange narkive permalink

Puede construir la escala que desee ... pero, como se ha dicho, las calificaciones ya están calculadas para que una diferencia de calificaciones en particular produzca una calificación esperada particular. El ajuste probablemente solo sesgará las cosas, especialmente si el ajuste es en el grado que usted sugiere y se basa únicamente en los números de calificación (a diferencia de, digamos, el hecho de que su calificación de 800 era provisional , y se fue subió significativamente en los pocos torneos que se necesitaron para que tu calificación se estableciera).

Creo que sobrestimas lo poco común que es que un 2650 supere a un 2820 aproximadamente. Si hay una brecha de 170 puntos en las calificaciones, se espera que la persona más baja obtenga alrededor de 27-28%. Aunque gran parte de esa puntuación proviene de empates, el jugador más bajo gana a veces. Para saber con qué frecuencia, miré una base de datos con 127K juegos. Lo filtré para juegos en los que 2800+ jugó con alguien 2650 o menos. Hubo 230 juegos de este tipo. De ellos, 16 fueron ganados por el lado más débil. Eso es alrededor del 7%.

O quizás subestimas lo difícil que es para un 1500 vencer a un maestro. No tengo una base de datos de jugadores con menor calificación frente a maestros, pero miré el historial de juegos de la USCF de un FM con calificación 2309 de mi estado. Ha jugado 48 partidos contra personas con una calificación inferior a 1500 desde que comenzaron a hacer un seguimiento a fines de 1991 y perdió cero . Jugó 104 juegos contra personas con una calificación de 1500-1699 y perdió 4. Contra personas con una calificación de 1700-1999, perdió 33 de 589, o alrededor del 5.6%.

Sí, estoy mezclando las calificaciones de USCF y FIDE por comparando los dos, pero sin embargo, diría que un 1500 derrotando a un maestro es en realidad una sorpresa mayor que un 2650 (que es casi suficiente para estar en la lista de los 100 mejores del mundo) venciendo a un 2820.

Pero tú no pregunté sobre eso, así que lo dejaré de lado ahora. Preguntaste sobre posibles fórmulas. Una fórmula que podría estar en el espíritu de lo que parece tener la intención (ponderando en gran medida la cantidad de malestar según la calificación del oponente y afectando todas las áreas de la escala de calificación) es:

A = D * 2 ^ ((R / 300) -5)

"A" es la cantidad ajustada del malestar, "D" es la diferencia en las calificaciones, y "R" es la calificación del oponente. El 2 significa que el malestar ajustado se duplica para una cantidad determinada de calificación del oponente (si fuera un 3, se triplicaría), y el 300 representa la cantidad necesaria para hacer ese cambio. (El 5 es solo para la escala). Entonces, según esta fórmula, por cada 300 puntos que se califica al oponente, la cantidad ajustada del malestar se duplica.

Personalmente, creo que eso es manera demasiado pronunciado (una diferencia en 1500 puntos de calificación del oponente significa que está ajustado por un factor de 32, y no creo que puedas decir que una diferencia de 10 puntos es lo mismo que una diferencia de 320 puntos) pero parece ajustarse a lo que era querido. Esta fórmula haría que un 2650 supere a un 2820 ligeramente mejor que un 1500 supere un 2200, y haría que un 1800 supere a un 1950 mejor que un 800 supere un 1300.

#3
  0
edwina oliver
2020-02-08 22:49:56 UTC
view on stackexchange narkive permalink

Podrías encontrar muchas formas más complicadas de medir el rendimiento, pero eso no solucionaría adecuadamente la INCONSISTENCIA y VARIABILIDAD de los jugadores con calificaciones más bajas.

Además, las calificaciones no son del todo precisas en los niveles bajos porque hay es una mezcla insuficiente de la competencia. Los mejores GM juegan ellos mismos, lo que es un grupo mucho más pequeño que los jugadores de nivel de club en todo el mundo o incluso en un país grande. De hecho, un país pequeño debería tener más jugadores débiles que el total de TODOS los GM del mundo.

Y las calificaciones solo estiman el RENDIMIENTO PASADO, lo que, como dicen los anuncios, no garantiza el rendimiento futuro. Los niños mejoran mucho; y los GM envejecen y generalmente un poco más débiles.

#4
-1
Jamal Munshi
2014-08-29 06:00:07 UTC
view on stackexchange narkive permalink

La debilidad del sistema de clasificación Elo es que se basa en la "puntuación", es decir, en la sustitución de los resultados del juego de ajedrez trinomial por "puntuaciones" binomiales (ganar = 1, perder = 0, empatar = 1/2). La puntuación hace que se pierda parte de la información de los resultados del juego. Hice una medida empírica de la pérdida de información y la encontré significativa. He propuesto una medida de rendimiento bidimensional que es más precisa porque contiene más información.

No puedo leer el periódico sin otra cuenta


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...