Comportamiento y acción colectivas en comunidades de data-activistas

Descripción: Desde el surgimiento del big data como un fenómeno independiente, poco se ha dicho acerca de la relación entre la sociedad civil organizada y el big data. Los investigadores han centrado su atención en iniciativas individuales o en el papel facilitador de las empresas. Pero en general, hasta ahora han hecho caso omiso de la dimensión de la acción colectiva y el papel del software y los datos en permitirla y restringirla.

Proponemos observar, recopilar, analizar y visualizar información acerca de la actividad en las redes sociales, y sobre las interacciones y acciones colectivas, de una serie de comunidades de activistas de datos con el fin de comprender mejor su comportamiento y sacar algunas conclusiones, aplicando algunas de las mismas tecnologías que los activistas de datos utilizan para promover el cambio social. El proyecto combinará observaciones de campo en el ciberespacio y la minería de datos para capturar esta actividad: lo que los activistas de datos piensan y dicen, lo que los activistas de datos hacen, y cómo los algoritmos median en aquello que los activistas de datos piensan y hacen. En definitiva, vamos a confiar en métodos basados ​​en algoritmos para explorar un fenómeno arraigado en los algoritmos. Los datos recopilados se recabarán y recogerán en bases de datos integrados, y se harán públicos al final del proyecto.

Proponemos observar, recopilar, analizar y visualizar información acerca de la actividad en las redes sociales, las interacciones y acciones colectivas de una serie de comunidades de activistas de datos con el fin de comprender mejor su comportamiento.

Imagen eliminada.

Herramientas y Materiales

Para el desarrollo del proyecto no se necesitará material físico ya que el trabajo se centra en datos, su procesamiento, la obtención de conclusiones y su visualización.

El material fundamental son los datos a recuperar de alguno de los diferentes lugares identificados durante un proceso previo.

Otros puntos claves para el desarrollo del proyecto son los siguientes:

  • Desarrollo ágil de scripts con Python + IDE Eclipse + PyDev

  • Desarrollo ágil de scripts para la gestión de los datos y adecuación con PyTHon + IDE Eclipse + PyDev

  • Diseño de visualización de información con dispositivos de dibujado analógicos

  • Maquetación Web con HTML5 + CSS

  • Generación de gráficos dinámicos con mbostock

  • Análisis de información estadística con Weka y Teiresias

  • Análisis de redes con Gephi

  • Desarrollo de infografías con herramientas de edición de imágenes GIMP o similares.

Promotor: Miren Gutiérrez

Colaboradores:

  • Javier Nieves: Gestión de proyecto y análisis estadístico de la información. Desarrollador informático

  • Borja Sanz: Gestión de proyecto y análisis estadístico de la información. Desarrollador informático.

  • Tom Estes: Diseñador gráfico que determinar el método más eficaz para la viualización de resultados.

  • Tom Estes: Artista, diseñador para la determinación de los métodos más eficaces para mostrar los resultados alcanzados.

  • Colaborador3: Diseñador gráfico para la codificación de los sistemas de visualización del prototipo final

Enlaces

La web final del desarrollo del proyecto puede consultarse en http://paginaspersonales.deusto.es/jnieves/interactivos/index.html
Los repositorios iniciales para la investigación de los comportamientos son los que se indican a continuación:

Organizaciones (Idioma castellano)

Imágenes del proceso

Imagen eliminada. Imagen eliminada. Imagen eliminada. Obtención de la información Análisis de la información Representación de la información

 

Plan de proyecto

  1. Analizar las fuentes de datos

    1. Identificar los activos de los que se disponen en cada una de ellas

    2. Identificar el tipo de información que puede ser sacado de cada uno de ellos

    3. Determinar cuál será el conjunto de datos con el que trabajar

      1. Seleccionar los datos

      2. Seleccionar las posibilidades de salida de información

      3. Seleccionar el formato de almacenamiento

  2. Crawling de datos

    1. Desarrollar los scripts para la obtención de la información

    2. Aplicar el proceso de descarga

  3. Análisis de los procesos de comportamiento

    1. Analizar la red de interacciones: Determinar la forma de procesamiento de la información seleccionada para que se pueda generar una visualización de la red de interacciones de los usuarios. Además determinar tipologías de usuarios según la información de los nodos (importancia por page rank).

    2. Analizar la información: Determinar la información disponible y los filtros que podrán ser aplicados posteriormente en la visualización de las infografías.

    3. Analizar la tipología de perfiles: Determinar los perfiles de los usuarios con un análisis de clustering que identifique los diferentes tipologías de usuarios según el comportamiento que tienen.

    4. Extracción de patrones: Extracción de los patrones de comportamiento a través de diferentes algoritmos.

      1. Extracción de patrones a través de la generación de las reglas de lo que se suele repetir.

      2. Extracción de patrones a través de la utilización de la búsqueda de patrones genéticos (Teiresias)

    5. Definición de las posibilidades de visualización de la información

      1. Visualización en un portal Web

      2. Posibilidades de representación en gráficas

      3. Posibilidades de representación en infografías

      4. Posibilidades de representación en elementos interactivos

      5. Diseño de los métodos de visualización para este tipo de información

    6. Desarrollo del portal Web para la visualización de la información

    7. Desarrollo de las visualizaciones

      1. Primera aproximación mediante el desarrollo de representaciones estáticas

      2. Segunda aproximación mediante el desarrollo de representaciones dinámicas

Diario del Proyecto

  • Día 11 de noviembre de 2014

Javier Nieves acude a MediaLab Prado para realizar su presentación del proyecto. En su presentación marca una historia en la que se muestra como puede ser utilizado el proceso del data-activismo. No obstante a la audiencia no le queda claro el contenido del proyecto, por lo que se pasa a determinar en la ronda de preguntas que el objetivo es el de análisis de usuarios anónimos para determinar cuál es el tipo de comportamientos dentro del data-activismo.

Imagen eliminada.

La presentación ha quedado adjunta en la sección de documentos.

  • Día 13 de Noviembre de 2014

Tras las sesiones de reuniones con el equipo de tutores de MediaLab-Prado, así como con los diferentes miembros del equipo, se ha determinado que el sistema a desarrollar será el que se detalla a continuación.

El sistema realizará el análisis de los conjuntos de datos que se recogerán de una única fuente de datos. El resultado de los análisis podrá promover las diferentes visualizaciones de los comportamientos a través de un sistema artístico de presentación de información. El caso de uso ideal es el desarrollo de los diferentes módulos de visualización como infografías dinámicas presentadas a través de una plataforma Web.

Los resultados se espera que sean similares a los siguientes ejemplos:

Imagen eliminada. Imagen eliminada.

Durante la sesión de la tarde se prepara la documentación y se cierra el plan de proyecto definitivo que deberá ser cumplido a lo largo de la duración del proyecto.

A continuación se adjunta el diagrama de gantt que determina la ejecución de las tareas del proyecto.

Imagen eliminada.

  • Día 14 de Noviembre de 2014

Se continúa con el proceso de desarrollo del proyecto. Siguiendo el plan de trabajo, a lo largo del día de hoy se ha hecho el análisis de las fuentes de datos seleccionadas antes de llegar a MediaLab-Prado. Antes de comenzar, se ha hecho la primera de las selecciones. Concretamente, se trabajará únicamente con aquellas que se encuentran en inglés.

Las fuentes que han sido seleccionadas para el análisis son las siguientes:

  • ProPublica
  • The Guardian Data Blog
  • Hack/Hackers
  • OpenKnowledge
  • International Journalist Network
  • The New York Times
  • Data Driven Journalism
  • The Knigth Center

Además, se ha decidido acotar el scope del análisis centrándose en la temática del training, seminarios, tutoriales, herramientas, hackatones o similares.

Dentro de la información que puede ser procesada aparecen las clasificaciones por tipologías, autorías, fechas, volúmen de interés, palabras utilizadas para los cursos, localizaciones en algunos de ellos, precios, entre otras cosas.

Después del análisis se han seleccionado aquellas que pueden aportar más información. Concretamente serán:

  • ProPublica
  • The Guardian Data Blog
  • International Journalist Network
  • Data Driven Journalism

La información que puede ser recogida de cada uno de ellos y la que será utilizada para el análisis del comportamiento asociado al movimiento de aprendizaje por los grupos activistas es la que se recoge en el siguiente mind map, y que se encuentra adjunto en la sección de imágenes.

Imagen eliminada.

El proceso continuará mañana a través del desarrollo de los crawlers que permitirán obtener los datos a analizar.

  • Día 15 de Noviembre de 2014

Se incorpora Tom Estes como colaborador del proyecto con el objetivo de dotar de un punto de vista más artístico a las posibles representaciones que hay que realizar. Las representaciones que haga Tom serán llevadas al mundo digital para visualizar los comportamientos de estas redes de data-activismo.

Imagen eliminada.

La actividad de Tom a lo largo del día ha sido ponerse al día con el proyecto y analizar las técnicas actuales que existen para la visualización de información en un entorno de data-activismo. Tom detecta diversos gráficos que pueden ser de ayuda para medir los resultados del análisis. Concretamente, parece de gran interés el gráfico en forma de flor.

Por otra parte, se comienza con el proceso del desarrollo de los crawleadores. EL primero de los desarrollos es el Crawler IJN. Se desarrolla el crawler de IJN para obtener las noticias. Puntos a tener en cuenta, se ha hecho el desarrollo teniendo en cuenta el idioma de la noticia. Así, si el título de la noticia no se encuentra en inglés, esa noticia será desechada.

Se ha desarrollado el script en python y se utiliza como servidor de navegación una versión antigua de selenium server. Así, se realizan las búsquedas de las palabras claves y se recorren todas las página de noticias. Una vez hemos recogido la información, se navega a cada una de las páginas de la noticia para recuperar el valor del texto de la noticia.

Nótese que en caso de darse un problema, temas de parseos o codificación del texto, esa noticia no se tendrá en cuenta y se pasará a la siguiente.

  • Día 16 de Noviembre de 2014

Los resultados han sido almacenados en un fichero CSV en crudo con el que habrá que trabajar posteriormente (se adjunta en la plataforma el fichero).

A continuación se adjuntan un par de imágenes de cómo se está llevando a cabo el proceso de descarga de información de forma automática.

Imagen eliminada.

Imagen eliminada.

  • Días 17,18 y 19 de Noviembre de 2014

Se ha continuado con el proceso de desarrollo y crawleo de la información de las otras fuentes de datos. La primera de ellas, The Guardian Data Blog, se ha seleccionado la parte de los cursos para recoger de ellos la información. El documento se encuentra en la sección de descargas. La segunda de ellas, ProPublica, se ha descargado la información relativa a las herramientas de datos.

A continuación se adjuntan un par de imágenes de cómo se ha llevando a cabo el proceso de descarga de información de forma automática. Para ver el proceso completo, en la sección de descarga se han dejado unos vídeos que muestran el proceso completo.

Imagen eliminada.

Imagen eliminada.

  • Días 20 y 21 de Noviembre de 2014

Durante estos días se ha realizado un análisis de los datos y se ha comprobado las formas de visualización posibles. A la par se ha procedido a desarrollar la plataforma Web en la que se mostrarán los resultados del proyecto

En lo que respecta a la visualización se han determinado dos herramientas concretas. Para ello, se mostrará información en gráficos sectoriales dinámicos para que el usuario pueda ir navegando y descubriendo la información. Por otra parte, se mostrará una red con información y los enlaces de los cursos, autores, años, etc.

A continuación se adjuntan dos imágenes como ejemplo de la visualización.

 

Imagen eliminada.

Imagen eliminada.

El diseño de la Web se ha intentado hacerlo de la forma más clara y sencilla. Así puede ser visualizado al hacer la navegación por la plataforma. El desarrollo ha sido realizado en HTML y en CSS. Hay una pequeña parte desarrollada en JavaScript y las visualizaciones han sido realizadas utilizando una librería externa.

  • Días 22 y 23 de Noviembre de 2014

Se procede a la integración de las visualizaciones y el despliegue de la plataforma Web.

23 colaboradores
0 comentarios

Equipo

Estado del proyecto
Activo
Valoración conjunta

Timeline