Investigador del CITIAPS apuesta a que Big Data de prensa se convierta en un referente

  • El investigador postdoctoral del Centro de Innovación en Tecnologías de la Información para Aplicaciones Sociales (CITIAPS), Dr. Fabián Riquelme Csori, uno de los responsables del proyecto que realiza seguimientos a los principales medios escritos de Chile, explica en detalle el despliegue informático que se lleva a cabo para elaborar el informe.

 




Hace poco más de dos meses fue lanzado el primer informe Big Data de medios de prensa escritos, una iniciativa conjunta del Centro de Investigación, Sociedad, Economía y Cultura (CISEC) de la FAE y del Centro de Innovación en Tecnologías de la Información para Aplicaciones Sociales (CITIAPS) de nuestra Casa de Estudios.

El proyecto, que comenzó agestarse a fines del año pasado, mide a través de gráficos la fuerza de una serie actores, temas, valores y coyunturas, según sus apariciones en notas de prensa publicadas en los sitios de internet de una serie de medios de comunicación escritos chilenos.

El investigador postdoctoral del CITIAPS, y uno de los responsables del proyecto, Fabián Riquelme Csori, explica que esperan que el estudio, inédito en el país, “se empodere como un buen informe, que vaya madurando cada vez más y que se convierta en un referente”.

Procedimiento

El CITIAPS se encarga de la parte informática del proyecto Big Data. En ese contexto, el Dr. Riquelme comenta que en la primera etapa de elaboración del informe, el equipo de CISEC establece una bolsa de palabras con distintos conceptos previamente validados por el Centro de la FAE.

“Luego, nosotros tomamos ese set de palabras y las adecuamos a través de expresiones regulares. Por ejemplo, “ministro Burgos” se puede encontrar por su nombre de pila y apellido, “Jorge Burgos”, o bien “ministro Burgos” en este caso puede aparecer de estas dos maneras en la prensa”, precisa el investigador.

Otro ejemplo, detalla, son los partidos políticos. “El MAS (Movimiento Amplio Social) sólo se puede buscar con mayúsculas, porque con minúsculas se confunde con la conjunción adversativa”, recalca.

Tras ello, puntualiza el ingeniero, la bolsa queda reducida a unas 200 palabras o conceptos, y a partir de ese momento, con este nuevo set de palabras, se comienza a monitorear los distintos medios de prensa.

“Dentro de un tiempo acotado activamos un ‘buscador’ que hace un paneo por todos los medios y al mismo tiempo va chequeando los términos si aparecen en el titular o en el cuerpo de la noticia”, indica el experto.

En ese momento cada aparición de las palabras o términos se pondera con la “fórmula de fuerza”, definida en el proyecto, la que se desarrolló en base a investigaciones preliminares de universidades europeas, con la salvedad que estas sólo tenían como objetivo la prensa escrita en papel. “Nosotros adecuamos esa fórmula en el contexto de la prensa digital”, subraya el Dr. Riquelme.

El resultado es una cantidad enorme de datos ordenados en tablas que muestran la frecuencia o aparición de los conceptos dentro de las noticias.

“Estas tablas las enviamos al equipo de CISEC para que ellos a partir de ahí determinen los distintos hitos que les interese analizar para posteriormente elaborar los gráficos y las visualizaciones y sacar conclusiones luego de hipótesis que establecieron de antemano”, enfatiza.

Margen de error

Respecto a la exactitud del resultado, el Dr. Riquelme asegura que todo dependerá del formato y del orden de las noticias de los sitios web de los medios de prensa.

“En el caso de Emol, La Segunda y Soy Chile, sus portales son muy ordenados, por lo que es fácil buscar las noticias. Pero en el caso de La Tercera y El Mostrador, hay que escarbar un poco más. Ahí no podemos garantizar el 100 por ciento de una búsqueda exitosa, pero sí un alto porcentaje, en todo caso”, subraya.

El investigador adelanta que está dentro de los planteamientos del informe ir sumando más medios para analizar, sin embargo, aclara que esto dependerá de qué tan accesibles sean sus sitios web.

“Lo que pasa es que acá en Chile la transparencia y la distribución de los datos es un tema pendiente, porque en otros países esto está mucho más masificado, como España, específicamente Barcelona, que es un caso ejemplar de buenas prácticas para el manejo de Big Data. Ahí los sistemas públicos y muchas empresas tienen a disposición la información muy ordenada para su uso”, recalca.

Incluso, acota, en nuestro país aún hay medios donde es muy difícil acceder a la información.

“De hecho hay portales donde no se accede a una página, sino que a una especie de pantallazo o de archivo PDF que contiene la noticia, o hay otros donde aparece una foto de la versión de papel del medio. En estos casos es muy difícil acceder a la información”, concluye.