Tras un parón Navideño en el que me hubiera gustado hacer el típico repaso de los Greatest Hits de Fuegolab, aquí estoy de nuevo dando un poco la paliza a quien me quiera leer, que para el bien de mi engordado ego de científico sois cada vez más y os lo procuro agradecer en cuanto tengo ocasión. Muy pronto esta bitácora cumplirá su primer año y he decidido hacer el mencionado repaso sin desaprovechar la oportunidad de colaros un poco de ciencia, en este caso del funcionamiento de la Ley de Zipf. Desconozco si algún "blogofriki" ha usado esta Ley para repasar lo ocurrido en su blog o en general en las redes sociales. En caso contrario estas líneas podrían ser pioneras en el misterioso mundo del comportamiento humano en su relación con los blogs...¿he captado vuestra atención? Pues acabas de formar parte de mi experimento, dale al botón de "texto completo".
George Kingsley Zipf (1902-1950) Fuente |
Según Wikipedia George Kingsley Zipf (1902-1950) fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas. A él se debe la llamada Ley de Zipf, que afirma que un pequeño número de palabras son utilizadas con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente forma:
donde Pn representa la frecuencia de una palabra en la posición n-ésima (cuando las palabras se ordenan de mayor a menor frecuencia) y "a" es cercana a 1. Esto significa que el segundo elemento de una serie se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente, o lo que es lo mismo, que el que ocupe la posición primera de un ranking tendrá el doble de frecuencia que el segundo, el triple que el tercero, etc. Por tanto lo que nos está diciendo esta Ley es que si un conjunto de cosas las ordenamos de mayor a menor y le damos un ranking (1, 2, 3, etc.) su posición en dicho ranking es proporcional al valor por el cual lo hemos ordenado. Esta distribución posteriormente se ha visto que funciona en muchas situaciones que tienen que ver con el comportamiento humano (como la distribución poblacional de las ciudades, la distribución y frecuencia de apellidos en un país), la comunicación (Shannon desarrolló el álgebra booleana dando forma matemática más rigurosa a esta Ley empírica) y, cómo no, para el funcionamiento de internet y las páginas webs. Curiosamente también funciona bien en algunos aspectos de la biología (por ejemplo la frecuencia de aparición de especies en un ecosistema dado). Probadlo con vuestros datos y alucinaréis. Se ha sugerido que es algo así como una Ley empírica de la mínima entropía de sistemas donde los organismos aumentan en frecuencia o desaparecen en función de efectos competitivos. De igual manera se han demostrado las excepciones a esta regla y la presencia de valores fuera de la norma que "estropean" la proporcionalidad "1/n" o en su caso que el valor de "a" no tiene por qué ser "1". Aún así, la mayoría de las veces que representamos en una gráfica en escala logarítmica, el ranking de un conjunto de cosas frente a la frecuencia de aparición, suelen alinearse razonablemente bien en una recta que no siempre es de pendiente -1 (valor de "a=1") pero que suele ajustarse de manera estadísticamente significativa.
donde Pn representa la frecuencia de una palabra en la posición n-ésima (cuando las palabras se ordenan de mayor a menor frecuencia) y "a" es cercana a 1. Esto significa que el segundo elemento de una serie se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente, o lo que es lo mismo, que el que ocupe la posición primera de un ranking tendrá el doble de frecuencia que el segundo, el triple que el tercero, etc. Por tanto lo que nos está diciendo esta Ley es que si un conjunto de cosas las ordenamos de mayor a menor y le damos un ranking (1, 2, 3, etc.) su posición en dicho ranking es proporcional al valor por el cual lo hemos ordenado. Esta distribución posteriormente se ha visto que funciona en muchas situaciones que tienen que ver con el comportamiento humano (como la distribución poblacional de las ciudades, la distribución y frecuencia de apellidos en un país), la comunicación (Shannon desarrolló el álgebra booleana dando forma matemática más rigurosa a esta Ley empírica) y, cómo no, para el funcionamiento de internet y las páginas webs. Curiosamente también funciona bien en algunos aspectos de la biología (por ejemplo la frecuencia de aparición de especies en un ecosistema dado). Probadlo con vuestros datos y alucinaréis. Se ha sugerido que es algo así como una Ley empírica de la mínima entropía de sistemas donde los organismos aumentan en frecuencia o desaparecen en función de efectos competitivos. De igual manera se han demostrado las excepciones a esta regla y la presencia de valores fuera de la norma que "estropean" la proporcionalidad "1/n" o en su caso que el valor de "a" no tiene por qué ser "1". Aún así, la mayoría de las veces que representamos en una gráfica en escala logarítmica, el ranking de un conjunto de cosas frente a la frecuencia de aparición, suelen alinearse razonablemente bien en una recta que no siempre es de pendiente -1 (valor de "a=1") pero que suele ajustarse de manera estadísticamente significativa.
Y un día como quien no quiere la cosa me pregunté ¿y por qué no pruebo a ver si el primer año de Fuegolab se ajusta la Ley de Zipf? Si representamos en la eje X el logartimo del ranking de cada entrada y en el eje Y el número de visitas de cada una de ellas obtenemos, tachán, tachán:
No es que sea para tirar cohetes pero lo cierto es que hay un ajuste lineal y en teoría se podría predecir el número de visitas según la posición ocupada en el ranking. En este caso destacan especialmente dos entradas con pocas visitas (Presentación, Mi modelo mi tesooooro, os animo a visitarlas para mejorar el ajuste, "que la realidad no te estropee un buen modelo"). Si las eliminamos el ajuste lineal sube del 83% al 93%:
Como veis las 7 primeras entradas presentan un valor de "Log(Nº de Visitas)" mayor de 2,8 (o sea más de 700 lecturas). Podéis comprobar en el top10 del blog que se corresponden con entradas que resumen bastante bien el espíritu de Fuegolab:
Divulgación científica más o menos seria sobre incendios forestales:
- "El código Da Vinci, Fibonacci y las piñas que se abren al paso del fuego", sobre la relación de la serie de Fibonacci con el conteo de piñones de los pinos, aplicable a los modelos de predicción de la regeneración post-incendio
- "Quemas prescritas: el fuego que ayuda a conservar nuestros bosques" en el que definíamos qué es una quema prescrita y qué beneficios tiene el fuego para prevenir incendios forestales
- "Qué mala suerte se me ha quemado la casa en el campo", sobre la prevención de incendios en la Interfaz Urbano-Forestal
- "Oxígeno, calor, vegetación y ¡Fuego!: de Vulcano a Prometeo" donde expliqué el proceso de combustión vegetal y los últimos avances en la caracterización de la inflamabilidad de plantas y el comportamiento del fuego.
Divulgación científica para reírse un rato:
- "El diablo se viste de Zara" sobre la Historia del fuego en nuestros ecosistemas y el por qué del estado actual de nuestros bosques
Opinión con un toque de humor y ciencia:
- "El silogismo de la biomasa y la prevención de incendios" sobre el uso de la biomasa forestal con fines energéticos compatible con la prevención de incendios
- "Siempre nos quedará el Batefuegos de Oro" donde meto un poco de caña a la ausencia de inversión forestal en general y en prevención de incendios en particular, recordando de forma emotiva la importante labor de reconocimiento profesional del Batefuegos de Oro
En el top10 de Fuegolab digo que "lo que más gusta no siempre es lo mejor" pero los lectores mandáis y creo que al final acertáis porque posiblemente estas 7 entradas fueron unas de las más trabajadas y algunas de ellas se publicaron en momentos oportunos durante la campaña de incendios con más repercusión de la que podría haber esperado.
En septiembre de 2013 introduje en el blog un Clustrmaps para celebrar las 10.000 visitas y para que la comunidad Fuegolab (y yo mismo) supiéramos las ciudades y países desde cuyas direcciones IP provienen las visitas al blog:
¿Cumplirán la Ley de Zipf?
Este balance que supera todas mis expectativas y vuestro incondicional apoyo, hizo que Fuegolab rozara el top10 de los premios bitácoras 2013, siendo el único blog forestal en la categoría de Ciencia que estuvo ahí, luchando con los grandes de la divulgación científica.
Tengo que agradecer las muestras de cariño, apoyo y felicitaciones que he recibido tanto de internautas, blogeros, tuiteros, compañeros de trabajo y amigos. Agradezco también a la blogocosa y las redes sociales por tener la oportunidad de contactar con la que se vendrá a llamar "Comunidad del Hachuelo", un grupo de tuiteros interesados por la ciencia y la divulgación forestal al que te deberías unir cuanto antes. Algunos nos hemos desvirtualizado, otros lo haremos pronto. Las charlas tuiteras mejoran con una cerveza. El mejor colofón a este año de éxitos es que sigáis ahí, con este espectacular apoyo, vuestra motivación es mi gasolina (o mi biomasa), espero que no me abandonen las Musas de la creatividad y Fuegolab se convierta en un punto de encuentro de la divulgación de la ciencia forestal y los incendios forestales. Nos seguimos encontrando en este 2014 en el que habrá más novedades. Sigan atentos a sus cuentas en RRSS y entrad de vez en cuando en Fuegolab...Lo mejor está aún por llegar.
Si os gustan mis entradas podéis apoyarme en los premios Bitácoras 2014 en la categoría de Ciencia, el mundo forestal y medioambiental debería estar bien representado aunque compitamos contra los gigantes de la ciencia básica. Gracias como siempre por vuestro estímulo.
Este obra está bajo una Licencia Creative Commons Atribución 3.0 Unported
Una entrada muy original, me ha sorprendido. Ahora bien, para alguien que no tiene mucha idea de estos análisis como yo ¿por qué has elegido una escala logarítmica para hallar la correlación y no la frecuencia de visitas directamente?.
ResponderEliminarEnhorabuena y muchas gracias.
Gracias J. El uso de esta escala es simplemente para que se observe la proporcionalidad de la Ley de Zipf. Si tomas logaritmos en la ecuación de la Ley de Zipf obtienes una recta de pendiente "-a" que si se cumple la Ley tal como la describió Zipf el valor tendería a "-1" log(frecuencia)=-a*log(rango). Como ves en los ajustes por mínimos cuadrados esta ecuación tal cual no es tan fácil de ajustar, se sulen obtener modelos ajustados del tipo log(frecuencia)=a-b*log(rango). Aún así a mi me resulta muy cuerioso estos ajustes tan buenos. Espero haberte contestado. Un abrazo
EliminarPero vaya frikazo que estás hecho, Javier! No conocía la ley de Zipf, pero pormeto que la testaré con mis datos, ya te contaré que tal sale! Enhorabuena por este 2013 de FuegoLab. Para ser el primer año no está nada mal, no? Un buen puñadp de entradas, casi 20000 visitas, arrasando en los bitácoras... Espero que en este 2014 sigas disfrutando tanto como aquellos que te leemos.
ResponderEliminarUn abrazo!
Gracias!! ¿Nada mal? Estoy que doy botes con vuestras visitas y comentarios. Gracias a vosotros por vuestro apoyo y cariñosas palabras. Estos días he tenido la oportunidad de ver a antiguos y nuevos amigos en el Taller de incendios que organizaba la SECF en Córdoba y estoy gratamente sorprendido de cómo me seguís. Como tal no puedo otra cosa que agradéceroslo sinceramente a todos e intentar mejorar este 2014.
EliminarPrueba lo de la Ley de Zipf porque es sorprendente cómo funciona. No deja de tener su misterio. La conocí en la reunión del grupo de modelización de la SECF (vínculo del artículo en una de las figuras) y no pude evitar usarlo con mis datos de regenerado post-incendio: ajustes razonablemente buenos ????? No me pregunte por qué, se lo dejo a los forestales metidos a ecólogos :-)
Ahora mismo leo tu entrada que tiene pinta de tener ese "resquemor" mezclada con indignación del emigrante... totalmente justificado. Un abrazo
O.o' Demasiado denso para leer después de un examen de incendios, me quedo con lo de las cervezas (¡Eso sí lo entendí! :D )
ResponderEliminarFelicitaciones por el éxito de tu blog que va creciendo. Y seguirá creciendo que mi profesor de incendios te ha hecho publi. ;)
Saludos
Me debes un butanito en el barrio húmedo, que yo ya estoy mayor :-)
Eliminar¿quién es tu profe, Fernando C-D? Mantenme informado si "sacar o no sacar" te ha servido para sacar peor o mejor nota ;-)
Gracias Graciela por tu apoyo, como siempre. Este 2014 le daremos un impulso a la Comunidad del Hachuelo
Un abrazo!
Buenas Javier,
ResponderEliminaranoto lo del butanito.
Y si, mi profesor es Fernando C-D, en cuanto a lo de "sacar o no sacar" desde luego que me sirvió para sacar mejor nota ;)
Saludos
Genial la entrada Javier. Para aportar un granito de arena adicional al frikismo presente, asusta el número de países que, como bien señalas, tienen sus ciudades ordenadas en población según esta ley :D
ResponderEliminarSe lo enlazo a mis amigos de prensa digital, que seguro que les encanta la aplicación que has encontrado.
Gracias Jesús, efectivamente lo de la distribución de la población se ha comprobado para ciudades en diferentes países. Se ha achacado a la concentración de la población con el tiempo en aquellos núcleos que concentran más empleo y servicios y que van engordando conforme más población reciben. En el caso de los blogs yo lo achacaría a que tenemos el "vicio" de hacer rankings y por tanto de que estén visibles siempre los más visitados. Somos unos borregos pues tendemos a no curiosear más allá del top10, con lo que pasado un tiempo prudencial las lecturas más leídas tienden a acumular más visitas al estar más visibles en el blog. Supongo que existe una conexión real entre los lectores, esto es, lo que le gusta a alguien con afinidad de gustos (como es el caso de un blog de ciencia forestal) suele ser parecido a lo que les gusta a la mayoría. Lo que comentas de la población por países también es cierto, es lógico esperar más cantidad de entradas de países de habla hispana diferentes de España en orden de población (probabilidad de que algún friki como nosotros se tope con esta página, tanto más cuanta más población friki exista). En cualquier caso es especular porque no hay una explicación rotunda del por qué esta ley funciona tan bien para un conjunto tan variopinto de datos. He preguntado en RRSS si alguien lo había usado en un blog pero no he recibido respuesta, por eso de apuntarme el tanto y presumir con los cuñaos. Si tus amiguetes me sacan de la duda eso que me llevo. Gracias por estar ahí y hasta pronto. Saludos.
Eliminar