Hace unas semanas la gente de Google presentó «Google Flu Trends», una aplicación que usa el volúmen de búsquedas de palabras clave para estimar la incidencia de la gripe en Estados Unidos. Por lo visto detectan los picos de actividad una o dos semanas antes que cualquier otro método tradicional.
Pues bien, se me ha ocurrido hacer algo similar pero con las cifras de paro. Es decir, usar los datos de búsquedas en Google para intentar estimar el número de desempleados en España.
Para ello he usado dos fuentes de datos:
- El paro real en España (Fuente: Ministerio de Trabajo)
- Volumen de búsquedas de «paro» en Google (Fuente: Google Trends)
El primer paso es ver si existe alguna relación clara entre ambas variables. Para ello, lo más sencillo es representar las variables en una gráfica XY:
Como vemos, existe una correlación lineal bastante aceptable: a más paro, más búsquedas del término en Google. Esto puede parecer obvio, pero no es así. Por ejemplo, si comparáis la evolución del Euribor con las búsquedas del término en Google, no encontraréis una buena correlación: cuando el Euribor subía la gente preferia no mirar —no aumentaron las búsquedas— pero cuando ha bajado, todo el mundo corre a verlo.
Diseño del estimador
Como decía, la aproximación lineal de la figura anterior es bastante buena (un valor de R^2 de 0.72), así que la usaremos como estimador1. Es decir, usando esa recta como modelo matemático podemos estimar el número de parados a partir del volúmen de búsquedas en Google:

A continuación he representado los datos reales del paro y la estimación que se obtiene de la expresión anterior:
No esta mal ¿no? Parece que nuestro modelo sencillo es capaz de calcular el número de desempleado a partir de las búsquedas en Google, con un error aceptable. Un efecto curioso es que el modelo falla en los meses de diciembre, cuando tiende a infravalorar el paro porque el número de búsquedas se reduce drásticamente.
Validación del estimador
La gráfica anterior indica que vamos por el buen camino, pero no es suficiente: para validar la capacidad de predicción del estimador es necesario usar un conjunto de datos diferente al empleado en el diseño. Desgraciadamente Google solo ofrece las búsquedas de los últimos cuatro años, así que no disponemos de datos con los que validar2.
Pero lo que podemos hacer es ir validando el estimador conforme dispongamos de más datos: es decir, (1) a final de mes recogeré las búsquedas en Google, (2) calcularé la predicción del estimador y (3) compararé dicha predicción con el dato de paro que publique el Ministerio de Trabajo.
No espero maravillas, al fin y al cabo toda la aproximación es algo naïve y el modelado es siempre un proceso iterativo, pero sí creo será interesante ver los resultados.
Ideas, críticas y sugerencias serán bienvenidas.
Otras estudios más o menos naïve
- Las (malas) predicciones del paro de la Fundación de Cajas de Ahorros
- Una gráfica resumen de 2008, usando Google Trends
- Explicando, con números, por qué dejó de subir la vivienda
- ¿Fue la crisis económica –y no el petróleo– la causa de la huelga de transporte?
- ¿Cuanto durará la caída de precios de la vivienda?
- Ahora que baja la vivienda, ¿cual es el mejor momento para comprar?
- Podríamos usar algo más complicado, pero una buena práctica de modelado es mantener tu modelo tan sencillo como sea posible. En realidad, con los datos disponibles —escasos— no parece prudente añadir parámetros al modelo, porque seguramente estaríamos modelando ruido y no señal. [↩]
- El problema de fondo es que disponemos de pocos datos. La evolución del paro es lenta y por lo tanto su evolución durante cuatro años es una señal poco excitada —varía poco, apenas vemos una etapa plana y una subida— lo que dificulta el modelado. Esto se ve muy bien en la primera gráfica: hay un montón de puntos en una zona —con mucho ruido y poca información— y sólo unos poco puntos más alejados que corresponden con la subida del paro. [↩]




37 respuestas hasta ahora ↓
1 maty // Jan 11, 2009 a las 20:32
Buena ocurrencia. ¿La próxima?
- Un saludo en este mi primer comentario -
Nota: incluido en mis seguimientos de sumarios RSS (que actualizaré esta semana).
2 Kiko Llaneras // Jan 11, 2009 a las 20:48
Gracias Maty. Lo cierto es que tengo alguna idea más para usar Google Trends en esta línea, ya veremos.
Saludos!
3 anllogui // Jan 11, 2009 a las 22:19
Vamos a pique. Cinco años de ingeniería y dos de doctorado y a partir de las palabras “El primer paso..” he empezado a perderme… XDDD
Debe de ser el resfriado que llevo encima que recalienta el cerebro. Aunque creo que es que lo tengo ya desacostumbrado a los números. Google trends se está convirtiendo en una herramienta para leer el cerebro de las masas en internet. Hace poco leí un artículo de google sobre como prevenir la afluencia de gente a los hospitales por enfermedades gracias a lo que buscaban en el buscador.
El día que se pueda acotar mejor la búsqueda, será una herramienta imprescindible en muchos campos, casi tanto como el buscador.
4 Kiko Llaneras // Jan 11, 2009 a las 22:25
No me digas eso, yo intentando explicarlo claro… y no se entiende
Eso me pasa por enrollarme: mirando las figuras y la ecuación sobra.
5 Roberto J. Alcalá Sánchez // Jan 11, 2009 a las 22:33
Hola, parece una buena aproximación lineal, aunque me surgen algunas dudas. ¿El valor de 0,72 corresponde a R (lo que pone el texto) o a R^2 (lo que pone la imagen)? en el primer caso sería una aproximación justita, en el segundo podemos decir que es bastante fuerte.
No obstante, la nube de puntos en la parte baja del gráfico no me da muy buena espina, y en el eje X debería aparecer mejor quizás mejor la tasa de paro, más que los datos brutos de parados.
En efecto, para poder ver si el modelo es bueno o no deberíamos tener más datos (de años anteriores), pero surge varios problemas. Los criterios para calcular el paro han ido variando, y suelen haber saltos significativos al comparar el anterior criterio con el nuevo para los mismos años (esto se ve claro en algunos gráficos que se han publicado en el weblog de WonkaPistas).
Otros aspecto es que hoy día Internet tiene una alta tasa de penetración y el perfil es relativamente variado (hombres-mujeres, gente mayor-joven; aunque domina el de hombre joven, según las estadísticas), pero años atrás no, y cuanto más atrás menos hogares con conexión. El despegue se inició a mediados de los 90, pero la cosa no tuvo ‘velocidad’ de verdad hasta que no apareció el ADSL con tarifa semiplana; así que aunque tuvieras los datos de años anteriores puede que no sirviera de mucho.
También hay que hacer notar que ahora Google tiene una proporción altísima de usuarios que lo usan como buscador principal (y casi único, al menos en España), pero hace bastante años no era tan dominante y la gente seguramente usaba distintos buscadores.
Tampoco se si influye mucho el uso de sinónimos, quiero decir que algunos buscarán por la palabra ‘paro’, otros por ‘desempleo’, otros ‘atur’ (en catalán significa paro), en vasco, gallego no se como se dice (sin descontar otros posibles idiomas: bable/asturiano, inglés, francés… según los distintos extranjeros residentes).
En fin, en todo caso una idea interesante. Sería bueno saber si también se da esta aparente relación lineal con otros datos, como por ejemplo epidemias (como han hecho en E.U.A.), mirar consultas de aire acondicionado (y cosas afines) según las temperaturas medias del verano de cada año, consultas de medios de transporte alternativos al coche (horarios, compra, alquiler y abonos de bicicletas, trenes, autobuses…) según el precio de la gasolina…
Saludos.
6 Ponzonha // Jan 11, 2009 a las 22:35
¿Y si usamos “trabajo” como control?
Hay más paro, más gente debería de buscar curro, supongo. Si cuadra de la misma manera, se puede hacer un predictor combinando ambas cosas…
7 alvarolg // Jan 11, 2009 a las 22:52
Me parece una idea genial, y encima proporciona información muy útil. Sigues en mis favoritos RSS jeje.
8 Rober // Jan 11, 2009 a las 23:24
El problema de diciembre se subsanaría conociendo el volumen de búsquedas y usando el valor relativo y no el absoluto. Pero sospecho que entonces se producirían otras desviaciones, quizá otros meses o por otras causas.
Otra cosilla ¿podría ser que -como parece que ocurre con lo de la gripe- esta medida anticipe el dato? No que lo sepamos antes, sino que se sitúe antes dentro del eje temporal. Se podría averiguar buscando un aumento en la correlación al desfasar las series.
9 Topo Universitario // Jan 11, 2009 a las 23:33
Una nueva matriz de datos para la validación cruzada la puedes conseguir recurriendo al paro en cualquier otra país.
Para ayudar a la interpretación podrías incluir una gráfica en la que se incluyeran cuatro líneas, una por año. En el eje de las Xs, los meses, de enero a diciembre. En las Ys, los residuales. Así sería más fácil ver: a) si hay ciclos; b) si los residuos crecen o decrecen según avanza el tiempo.
Por cierto, otro aspecto importante a comentar es la importancia de la varianza para tener una R^2 como la que tienes. Si no hubiera subido el paro como lo ha hecho este último año y sólo tuvieras la ‘bola de puntos’ de la esquina inferior, la conclusión de tu estudio habría sido diferente.
Muy interesante, en cualquier caso.
10 Kiko Llaneras // Jan 11, 2009 a las 23:34
Roberto, te cuento:
1. es R^2 (he metido la pata en el texto).
2. Mi idea inicial era usar la tasa de paro, pero no he encontrado datos mensuales.
3. Respecto a la nube de puntos, evidencia una falta de información en nuestros datos, en el sentido de que la señal esta poco “excitada” lo que dificulta la identificación del modelo (muchos puntos juntos).
4. Coincido en que los datos del pasado no serían útiles (por cambios en el paro y en los hábitos de los internautas).
5. Una forma de hacer este análisis más serio y contrarrestar la falta de datos sería, como sugieres, añadir más términos al modelo: desempleo, euribor, infojobs, etc.
Pero bueno, como prueba de concepto, la verdad es que los resultados me han sorprendido.
P.D. Creo que cuando vayan llegando nuevos datos veremos que el modelo lineal es insuficiente para capturar la relación paro/búsqueda. Si tuviera que hacer esto más en serio, pensaría en identificar modelos «data-driven», PCA/PLS, redes neuronales, etc.
11 Kiko Llaneras // Jan 11, 2009 a las 23:43
Ponzonha, «trabajo» no parece servir, al menos a primera vista (se ve una señal bastante plana).
Alvarolg, ¡gracias!
Rober, las búsquedas son en relativo. El asunto no es que la gente busque menos, sino que buscan otras cosas en vez del paro (mi hipótesis es que buscamos cosas que comprar, por ejemplo).
Y si podemos usarlo como predictor, en cuanto termine un mes podemos estimar el paro. En cuanto al desfase… se podría intentar identificar un modelo dinámico, introduciendo no solo las búsquedas del mes actual, sino las pasadas. Modelos ARMAX y ARX, etc. Si esto se hiciera bien, lo haría así.
12 Kiko Llaneras // Jan 12, 2009 a las 00:03
- Topo, la idea de usar otro país esta bien… ¿aunque podemos esperar una conducta de búsqueda diferente entre gentes de otros países? Había intentado usar las provincias para eso, pero no hay suficientes datos según google.
- El tratamiento de los residuos, por años, también estaría bien verlo. En diciembre se ve a ojo una caída, pero puede haber más cosas similares.
- Respecto a la varianza, yo lo veo desde la perspectiva de identificación de modelos dinámicos, pero la conclusión es la misma, creo:
La señal de entrada del modelo —las búsquedas— están siempre en una zona, la bola, excepto para los puntos de 2008. Es decir, es una entrada poco excitada (de poca varianza) que no explora convenientemente todo el espacio de estados del sistema, lo que dificulta identificar el modelo Paro/búsquedas. Sin datos de 2008 seguramente el ajuste lineal habría fallado… y con suerte no habríamos concluido nada.
Por esa misma razón no confío en poder estimar bien el paro a comienzo de 2009. Es previsible que en enero el paro aumente y las búsquedas también. Eso nos llevará a una zona de la gráfica 1 no explorada (y que por tanto el modelo desconoce) así que no espero una buena estimación… a no ser que realmente hayamos capturado comportamiento “real”.
13 Rober // Jan 12, 2009 a las 01:00
Está claro que el dato relativo no vale (buscad “regalos”, ya veréis que “pico” sale en diciembre). Y el dato absoluto se verá afectado por el número de búsquedas (eso si hubiera forma de saberlo, porque el CSV que ofrece google etiquetado como “fixed” no lo veo yo claro, es siempre 1.5 veces el relativo)
Habría que compararlo con los datos absolutos de una serie “fija”. Algún término que mantuviera constante la “importancia”, independientemente del mes (no constante el dato realtivo ni el absoluto, sino la “importancia” dentro del resto de búsquedas; algo como “embarazo”, por ejemplo). Dividiendo el número de busquedas absolutas de “paro” entre el número de búsquedas absolutas del término “constante”, eliminaríamos la interferencia de los regalos de navidad y demás. He hecho la prueba con “embarazo”, pero no se gana demasiado.
De todas formas, creo que tienes razón respecto a la bondad de la estimación: al principio mucha gente habrá buscado “paro” para ver cómo iba la cosa. Cuando nos acostumbremos a la mala noticia, bajarán las búsquedas. Si esto es cierto, habría que tomar la variación y considerarla la derivada (e integrarla).
Mucho elucubro yo a estas horas de la noche, me parece.
14 Arvedui // Jan 12, 2009 a las 01:22
¿has pensado en descartar los valores de diciembre -claramente anómalos- y volver a calcular la ecuación?
está justificado y es algo perfectamente normal y muy habitual descartar medidas anómalas para evitar el error que introducen en el ajuste
con eso probablemente mejorarías algo la R y tendrías una estimación más fiable para el dato de enero
siempre sería mejor usar el dato relativo, como apunta Rober, pero si podemos suponer que durante el resto del año las búsquedas se mantienen estables, descartar sencillamente diciembre es una aproximación razonable y ahorra trabajo
una anotación muy interesante, por cierto
15 estadistico // Jan 12, 2009 a las 05:26
Lo que te falta en el modelo: la autocorrelación. Y diferenciar tampoco te vendría mal. En definitiva: tratar las dos series de tiempo como lo que son, y no como dos simples variables aleatorias.
16 estadistico // Jan 12, 2009 a las 06:15
Tomada la serie desde 2004, parece que la palabra “desempleo” tiene una respuesta estacional más fuerte (útil si se la quieres remover para las predicciones). Se me ocurre que quizá sean más útiles otros predictores que midan más directamente la “preocupación” de la gente (quien teme entrar en paro, ¿qué palabra busca, “paro”, u otras?). Por ejemplo “hipoteca” (también con una bonita respuesta estacional y mucho más monótona que “euribor”).
17 Kiko Llaneras // Jan 12, 2009 a las 08:50
Rober, yo creo que eso es fundamental: el éxito de la palabra «paro» puede tener más que ver con su impacto mediático que con el número de parados:
Más parados -> se habla de paro -> se busca paro en google
Si el paro se estabiliza, seguramente veríamos un decaimiento en las búsquedas.
P.D. Incluyendo valores pasados como entradas, la identificación podría empezar a mejorar.
18 Kiko Llaneras // Jan 12, 2009 a las 08:52
Arvedui, sacar los datos de diciembre puede ser buena idea, sí, sobretodo pensando en enero.
P.S. El dato es relativo, google pondera todos sus datos sobre el volumen total de búsqueda de ese periodo (por ejemplo, cualquiera con un blog sabe que las visitas caen mucho en verano, y eso no se ve en Google Trends).
19 Kiko Llaneras // Jan 12, 2009 a las 10:25
Estadístico, la verdad es que faltan muchas cosas (ya decía yo que es una aproximación naïve), apunto autocorrelación y diferenciar.
De todas maneras, desde la perspetiva de ingeniería de sistemas, yo lo que haría es identificar un modelo dinámico —eligiendo una estructura sencilla— usando toda la información pasada… y añadiendo otros términos. «Desempleo» parece un candidato perfecto con lo que cuentas. Elegí «paro» por que es la más obvia y facilita el que más gente entienda toda la aproximación.
El problema, de todas maneras, sería el mismo que ya menciono en el artículo: faltan datos para poder validar (de forma cruzada o no).
P.S. ¡Gracias a todos por el feedback!
20 Emilio // Jan 12, 2009 a las 11:05
Yo creo que haría lo que propones respecto al modelo dinámico, se nota que tenemos la misma deformación profesional
. Pero vamos, me parece evidente que si un mes el paro es muy alto, se va a buscar seguro en google durante el mes siguiente, independientemente de que en dicho mes el desempleo suba, baje, o haga lo que quiera. No obstante de estadística ando justito, así que seguramente lo que propone estadístico sea razonable
Otra posibilidad, más sencilla que meterse con modelos dinámicos, sería comprobar la correlación entre las búsquedas en google y el paro en el mes anterior. O entre el incremento del paro en un mes y las búsquedas.
Y lo último que se me ha ocurrido es cambiar el término de busca por alguno que sea más probable que utilice alguien que realmente se ha quedado en paro, aunque claro, esto es más difícil. Quizás “inem” o “cobrar paro”.
21 Topo Universitario // Jan 12, 2009 a las 13:43
Pasos a seguir ahora:
1) Cuelga la matriz de datos.
2) Convoca el concurso ‘Ajusta tu modelo’.
—
Es curiosa la diferencia de puntos de vista. Para ti, hay una única relación entre variables. Esta relación, a veces, permanece enmascarada (variable poco excitada). Para mí, hay multitud de relaciones entre variables o, dicho de otro modo, la magnitud de la relación entre variables depende, entre otras cosas, de la varianza de las mismas.
Imagina carrera de 100 metros lisos y dos jueces. El primero, con un cronómetro de precisión; el segundo, con un reloj que sube y baja, al azar, medio segundo por corredor. En la final de los Juegos Olímpicos, ¿cuál sería la correlación entre ambas medidas? ¿Y si cogiéramos a una muestra más variada de corredores, desde atletas hasta ancianos? ¿Cambiaría la correlación? ¿Cuál sería la correlación verdadera?
22 Kiko Llaneras // Jan 12, 2009 a las 14:27
Emilio, seguramente eso sea un problema: las búsquedas dependen más del anterior —el ya publicado— que el que esta por venir.
- Una solución puede ser detectar las palabras que busca un parado: «cobrar paro», etc.
(«cobrar paro» solo tiene datos recientemente, una pena. He probado «finiquito» y tiene buena pinta… aunque pocos datos también.)
- Apunto lo de buscar correlaciones con desfase y con incrementos, como aproximación más sencilla.
23 Kiko Llaneras // Jan 12, 2009 a las 14:28
Topo, no es mala idea. Cuando saque un rato lo cuelgo a ver si alguno os apuntáis a probar cosas.
24 Rober // Jan 12, 2009 a las 23:08
Je je, lo de “finiquito” ya lo probé yo, pero sale bastante parecido a “paro” (menos marcado, pero con el mismo problema en diciembre)
He buscado hasta “abogado laboralista” y “ere”, pero no he dado con nada que merezca la pena.
Topo: buenísima idea. Me apunto al concurso.
25 Kiko Llaneras // Jan 13, 2009 a las 10:01
Es una pena, pero hay mucha palabras interesantes pero que no tienen un volumen de búsquedas suficiente y Google no muestra nada.
P.S. A ver si saco un rato esta tarde o mañana y subo los datos.
26 kerno // Jan 14, 2009 a las 11:40
Primero, felicidades por el post que está muy guay. muy buena la idea. ahora las críticas.
No me gusta la frase de que un R de 0.72 es bastante bueno. En principio es un dato malo, indica una ligera correlación. Solo por sobre de 0.9 se puede hablar de buena correlación (o eso me han enseñado). El tema es que si haces el estudio sin los datos de los últimos meses, creo que obtendrás unos resultados completamente distintos y la segunda gráfica saldrá mal. Tendría que probarlo, pero creo que saldría bastante peor. Creo que el método solo funciona en épocas con fuertes variaciones (o me equivoco?).
Por otro lado, la regresión lineal solo funciona en este caso porque usas una época de crecimiento de paro. En una época de fuerte bajada del paro, la gente también lo busca un montón en el google y por lo tanto estropearía tu regresión. tendrías que usar luego una polinomial.
Lo que dices de diciembre está totalmente justificado y de hecho podías haber eliminado ese dato, estadísticamente puedes eliminar el 5% creo.
pese a las críticas. me ha encantado tu entrada y el experimento. Te tengo en favoritos.
27 Josete // Jan 14, 2009 a las 12:51
Alucinado, como siempre. Lo que no se te ocurra a ti… También algún parámetro de ETT sería interesante, así como si se pudiera juntar la gente en paro con la gente que va a las rebajas… Estoy yendo a Valencia a un curso y alucino, como si se acabara el mundo.
Un saludo.
PD: En breve recibirás un mail mío con una idea que se me ocurrió, no te asustes.
28 Kiko Llaneras // Jan 14, 2009 a las 22:02
¡Gracias, Kerno!
Con respecto a R, lo que vale 0.72 es R^2 (errata mia, perdón). Se trata de un buen valor de R^2, aunque habría que mira más cosas (residuos, por ejemplo). Pero vamos, la correlación es evidente viendo la figura, otra cosa es que valga como modelo predictivo.
Y, Sí, los datos de 2008 son clave porque es cuando ha habido variación:
Para obtener un modelo que relacione X e Y, necesitaré hacer muchos “experimentos” diferentes y obtener pares (Xi, Yi). Si Xi vale siempre 5, podré estimar el ruido de mis medidas, quizás, pero tengo ni idea que cuando valdrá Y cuando X sea -2, 9 o 23.
Es decir, para identificar un sistema necesito una entrada que lo excite suficientemente y explore todo su espacio de variables. Por esa misma razón, el estimador no será capaz de estimar el paro a lo largo de 2009.
Sin los datos de 2008, tendríamos un conjunto de datos de entrada (paro) todavía peor que el que tenemos… y sería muy difícil sacar nada en claro.
El problema en muchísimos problemas de este tipo es siempre el mismo ¡faltan datos!
29 Kiko Llaneras // Jan 15, 2009 a las 00:03
Josete, correlacionar paro y compras también habría que probarlo, sí.
En realidad hay tantas cosas… ¿habrán subido las audiencias televisivas durante las mañanas? Pensad que hay un millón de personas más en su casa.
P.D. Espero tu correo.
30 Topo Universitario // Jan 15, 2009 a las 11:15
Si tenemos 48 valores en la variable dependiente, mi recomendación es utilizar 47 variables predictoras. Así seguro que conseguiremos una R^2 igual a 1…
—
Planteas “¿podemos esperar una conducta de búsqueda diferente entre gentes de otros países?”. No lo sé, la teoría e hipótesis que inicia el estudio es tuya.
—
No hay manual alguno que señale de un modo tajante a partir de qué valor una correlación se puede considerar alta. Y, de haberlo, tendría que quemarse.
Correlaciones entre indicadores de calidad de vida evaluados a nivel de países han de correlacionar muy alto. Miden lo mismo y con poco error. Valores por debajo de 0′8 podrían incluso considerados como llamativamente bajos.
Correlaciones entre pruebas de selección de empleo y desempeño posterior, con suerte, correlacionarían como 0′6. Y, posiblemente, si uno desarrolla una prueba que dé ese resultado ya tiene la vida solucionada, dedicándose a comercializarla.
Sólo la teoría y el marco de estudios previos determinan a partir de dónde una correlación es alta.
—
El profesor que llevo dentro se ha quedado a gusto.
31 Joe // Jan 15, 2009 a las 11:50
Muy bueno el artículo!!… No conocía lo de Google Trends, ahora mismo me voy a jugar con él un rato! jeje
32 Kiko Llaneras // Jan 15, 2009 a las 14:41
Topo, lo de comparar con otros países es idea tuya, así que tu te encargas de las hipótesis correspondientes
En identificación la correlación nos da “igual” la clave esta en si las predicciones del modelo se pueden validar o no. Es curioso.
33 Kiko Llaneras // Jan 15, 2009 a las 20:23
Joe, Google Trends es una pasada.
34 cyberkender // Jan 19, 2009 a las 02:45
Curioso esto de experimentar con tendencias en google. En cuanto a las explicaciones para Diciembre se me ocurre que con motivo de las fiestas y vacaciones la gente deja de usar el ordenador (bien porque se conecta desde el trabajo, bien porque llena su tiempo lejos del ordenador). Ver la evolución detallada de las búsquedas (por días), nos permitiría ver si esa caída ocurre los fines de semana lo que indica la gente que busca desde el trabajo…Que de cosas que se pueden hacer…
35 Kiko Llaneras // Jan 19, 2009 a las 09:51
Cyberkender, los datos son relativos al total de búsquedas. Seguramente la gente navega menos en Navidad, pero la caída no se debe a eso, sino que de la gente que busca, un porcentaje menor busca la palabra «paro» cuando esta de vacaciones.
Supongo que el efecto también puede deberse a que aparecen muchas búsquedas de términos navideños —compras, fiestas, recetas, no sé— y diluyen a las búsquedas de «paro».
P.S. En cuanto a los fines de semana, ya que lo mencionas, por lo menos los blogs tienden a tener muchas menos visitas durante los fines de semana.
Saludos
36 kerno // Jan 21, 2009 a las 15:59
ya lo he mencionado antes pero insisto. En caso de una fuerte reducción del paro muy rápida, el número de búsquedas también sería muy alto con lo que la correlación lineal fallaría. Lo único que veo se puede correlacionar a largo plazo es la variación (derivada) del paro en valor absoluto. Para además darle una utilidad a la herramienta se podría probar con la palabra trabajo así se podría prever una subida o bajada del paro, con apoyo de datos macroeconómicos se podría decidir el signo del valor obtenido.
37 Kiko Llaneras // Jan 24, 2009 a las 23:50
Sí, Kerno, yo también creo que las búsquedas responden más a los cambios que al valor absoluto.
Para intentar hacerlo más en serio, lo mejor sería usar información de muchos más términos. Pero sigo pensando que nos faltarían datos. El Paro no ha cambiado lo suficiente en los últimos cuatro años.
P.S. Seguramente sería mejor buscar otro problema al que aplicar esta aproximación.
Deja tu comentario