FuegoLab: La Ley de Zipf y los blogs: el primer año de Fuegolab al desnudo

domingo, 12 de enero de 2014

La Ley de Zipf y los blogs: el primer año de Fuegolab al desnudo

Tras un parón Navideño en el que me hubiera gustado hacer el típico repaso de los Greatest Hits de Fuegolab, aquí estoy de nuevo dando un poco la paliza a quien me quiera leer, que para el bien de mi engordado ego de científico sois cada vez más y os lo procuro agradecer en cuanto tengo ocasión. Muy pronto esta bitácora cumplirá su primer año y he decidido hacer el mencionado repaso sin desaprovechar la oportunidad de colaros un poco de ciencia, en este caso del funcionamiento de la Ley de Zipf. Desconozco si algún "blogofriki" ha usado esta Ley para repasar lo ocurrido en su blog o en general en las redes sociales. En caso contrario estas líneas podrían ser pioneras en el misterioso mundo del comportamiento humano en su relación con los blogs...¿he captado vuestra atención? Pues acabas de formar parte de mi experimento, dale al botón de "texto completo".

George Kingsley Zipf (1902-1950) Fuente

Según Wikipedia George Kingsley Zipf (1902-1950) fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas. A él se debe la llamada Ley de Zipf, que afirma que un pequeño número de palabras son utilizadas con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente forma:

donde Pn representa la frecuencia de una palabra en la posición n-ésima (cuando las palabras se ordenan de mayor a menor frecuencia) y "a" es cercana a 1. Esto significa que el segundo elemento de una serie se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente, o lo que es lo mismo, que el que ocupe la posición primera de un ranking tendrá el doble de frecuencia que el segundo, el triple que el tercero, etc. Por tanto lo que nos está diciendo esta Ley es que si un conjunto de cosas las ordenamos de mayor a menor y le damos un ranking (1, 2, 3, etc.) su posición en dicho ranking es proporcional al valor por el cual lo hemos ordenado. Esta distribución posteriormente se ha visto que funciona en muchas situaciones que tienen que ver con el comportamiento humano (como la distribución poblacional de las ciudades, la distribución y frecuencia de apellidos en un país), la comunicación (Shannon desarrolló el álgebra booleana dando forma matemática más rigurosa a esta Ley empírica) y, cómo no, para el funcionamiento de internet y las páginas webs. Curiosamente también funciona bien en algunos aspectos de la biología (por ejemplo la frecuencia de aparición de especies en un ecosistema dado). Probadlo con vuestros datos y alucinaréis. Se ha sugerido que es algo así como una Ley empírica de la mínima entropía de sistemas donde los organismos aumentan en frecuencia o desaparecen en función de efectos competitivos. De igual manera se han demostrado las excepciones a esta regla y la presencia de valores fuera de la norma que "estropean" la proporcionalidad "1/n" o en su caso que el valor de "a" no tiene por qué ser "1". Aún así, la mayoría de las veces que representamos en una gráfica en escala logarítmica, el ranking de un conjunto de cosas frente a la frecuencia de aparición, suelen alinearse razonablemente bien en una recta que no siempre es de pendiente -1 (valor de "a=1") pero que suele ajustarse de manera estadísticamente significativa.

Fuente

Y un día como quien no quiere la cosa me pregunté ¿y por qué no pruebo a ver si el primer año de Fuegolab se ajusta la Ley de Zipf? Si representamos en la eje X el logartimo del ranking de cada entrada y en el eje Y el número de visitas de cada una de ellas obtenemos, tachán, tachán:

No es que sea para tirar cohetes pero lo cierto es que hay un ajuste lineal y en teoría se podría predecir el número de visitas según la posición ocupada en el ranking. En este caso destacan especialmente dos entradas con pocas visitas (Presentación, Mi modelo mi tesooooro, os animo a visitarlas para mejorar el ajuste, "que la realidad no te estropee un buen modelo"). Si las eliminamos el ajuste lineal sube del 83% al 93%:

Como veis las 7 primeras entradas presentan un valor de "Log(Nº de Visitas)" mayor de 2,8 (o sea más de 700 lecturas). Podéis comprobar en el top10 del blog que se corresponden con entradas que resumen bastante bien el espíritu de Fuegolab:

Divulgación científica más o menos seria sobre incendios forestales:

"El código Da Vinci, Fibonacci y las piñas que se abren al paso del fuego", sobre la relación de la serie de Fibonacci con el conteo de piñones de los pinos, aplicable a los modelos de predicción de la regeneración post-incendio
"Quemas prescritas: el fuego que ayuda a conservar nuestros bosques" en el que definíamos qué es una quema prescrita y qué beneficios tiene el fuego para prevenir incendios forestales
"Qué mala suerte se me ha quemado la casa en el campo", sobre la prevención de incendios en la Interfaz Urbano-Forestal
"Oxígeno, calor, vegetación y ¡Fuego!: de Vulcano a Prometeo" donde expliqué el proceso de combustión vegetal y los últimos avances en la caracterización de la inflamabilidad de plantas y el comportamiento del fuego.

Divulgación científica para reírse un rato:

"El diablo se viste de Zara" sobre la Historia del fuego en nuestros ecosistemas y el por qué del estado actual de nuestros bosques

Opinión con un toque de humor y ciencia:

"El silogismo de la biomasa y la prevención de incendios" sobre el uso de la biomasa forestal con fines energéticos compatible con la prevención de incendios
"Siempre nos quedará el Batefuegos de Oro" donde meto un poco de caña a la ausencia de inversión forestal en general y en prevención de incendios en particular, recordando de forma emotiva la importante labor de reconocimiento profesional del Batefuegos de Oro

En el top10 de Fuegolab digo que "lo que más gusta no siempre es lo mejor" pero los lectores mandáis y creo que al final acertáis porque posiblemente estas 7 entradas fueron unas de las más trabajadas y algunas de ellas se publicaron en momentos oportunos durante la campaña de incendios con más repercusión de la que podría haber esperado.

En septiembre de 2013 introduje en el blog un Clustrmaps para celebrar las 10.000 visitas y para que la comunidad Fuegolab (y yo mismo) supiéramos las ciudades y países desde cuyas direcciones IP provienen las visitas al blog:

¿Cumplirán la Ley de Zipf?

¡Eureka! Como era de esperar España ocupa el número 1 en el ranking pero me ha sorprendido la aceptación del blog en Estados Unidos (2º), por encima de Mexico (3º), Portugal (4º) y Argentina (5º).

Este balance que supera todas mis expectativas y vuestro incondicional apoyo, hizo que Fuegolab rozara el top10 de los premios bitácoras 2013, siendo el único blog forestal en la categoría de Ciencia que estuvo ahí, luchando con los grandes de la divulgación científica.

Tengo que agradecer las muestras de cariño, apoyo y felicitaciones que he recibido tanto de internautas, blogeros, tuiteros, compañeros de trabajo y amigos. Agradezco también a la blogocosa y las redes sociales por tener la oportunidad de contactar con la que se vendrá a llamar "Comunidad del Hachuelo", un grupo de tuiteros interesados por la ciencia y la divulgación forestal al que te deberías unir cuanto antes. Algunos nos hemos desvirtualizado, otros lo haremos pronto. Las charlas tuiteras mejoran con una cerveza. El mejor colofón a este año de éxitos es que sigáis ahí, con este espectacular apoyo, vuestra motivación es mi gasolina (o mi biomasa), espero que no me abandonen las Musas de la creatividad y Fuegolab se convierta en un punto de encuentro de la divulgación de la ciencia forestal y los incendios forestales. Nos seguimos encontrando en este 2014 en el que habrá más novedades. Sigan atentos a sus cuentas en RRSS y entrad de vez en cuando en Fuegolab...Lo mejor está aún por llegar.

Si os gustan mis entradas podéis apoyarme en los premios Bitácoras 2014 en la categoría de Ciencia, el mundo forestal y medioambiental debería estar bien representado aunque compitamos contra los gigantes de la ciencia básica. Gracias como siempre por vuestro estímulo.

Este obra está bajo una Licencia Creative Commons Atribución 3.0 Unported

9 comentarios:

José Almodóvar14 de enero de 2014, 11:03
Una entrada muy original, me ha sorprendido. Ahora bien, para alguien que no tiene mucha idea de estos análisis como yo ¿por qué has elegido una escala logarítmica para hallar la correlación y no la frecuencia de visitas directamente?.
Enhorabuena y muchas gracias.
ResponderEliminar
Respuestas
Multivac4214 de enero de 2014, 15:42
Pero vaya frikazo que estás hecho, Javier! No conocía la ley de Zipf, pero pormeto que la testaré con mis datos, ya te contaré que tal sale! Enhorabuena por este 2013 de FuegoLab. Para ser el primer año no está nada mal, no? Un buen puñadp de entradas, casi 20000 visitas, arrasando en los bitácoras... Espero que en este 2014 sigas disfrutando tanto como aquellos que te leemos.

Un abrazo!
ResponderEliminar
Respuestas
Graciela16 de enero de 2014, 6:49
O.o' Demasiado denso para leer después de un examen de incendios, me quedo con lo de las cervezas (¡Eso sí lo entendí! :D )
Felicitaciones por el éxito de tu blog que va creciendo. Y seguirá creciendo que mi profesor de incendios te ha hecho publi. ;)
Saludos
ResponderEliminar
Respuestas
Graciela19 de enero de 2014, 2:21
Buenas Javier,
anoto lo del butanito.
Y si, mi profesor es Fernando C-D, en cuanto a lo de "sacar o no sacar" desde luego que me sirvió para sacar mejor nota ;)

Saludos
ResponderEliminar
Respuestas
Unknown21 de enero de 2014, 1:16
Genial la entrada Javier. Para aportar un granito de arena adicional al frikismo presente, asusta el número de países que, como bien señalas, tienen sus ciudades ordenadas en población según esta ley :D

Se lo enlazo a mis amigos de prensa digital, que seguro que les encanta la aplicación que has encontrado.
ResponderEliminar
Respuestas