Joining All Statistical Data Of the World

Cuántas personas en el mundo, en cada país, en cada ciudad a cada hora del día, están expuestas al uso de datos estadísticos, tales como datos demográficos, datos económicos, datos de negocios, de precios, de ventas, de la competencia, del mercado, datos relativos a salud, educación, transporte, energía, etc. Los ejecutivos de las empresas difícilmente podrían tomar una decisión, sin que esté basada en información adecuada, información que por cierto se compone de datos. Las políticas económicas de un país no podrían ser cambiadas sin ver los datos del entorno macroeconómico. Los estudiantes universitarios basan sus conocimientos en trabajos prácticos para los cuales requieren conseguir datos. Analistas, consultores, investigadores, ejecutivos, universitarios, docentes, ejecutivos, directores, inversores y muchos otros están expuestos a requerir datos estadísticos de distinta índole.

JASDOW es el nombre del proyecto que se ha encarado y lo que pretende es reunir toda la información existente en el planeta relativa a datos estadísticos. El proyecto JASDOW no es la primera iniciativa que busca este objetivo. Ha habido varios intentos de distintas empresas de gran renombre, de intentar reunir estos datos, sin embargo, hasta el momento no existe una sola experiencia que haya dado resultado.

¿Cuáles son las dificultades que se tiene para lograr juntar toda la información estadística del planeta?

Para entender el problema que debe encarar un proyecto de esta naturaleza, es preciso comprender el entorno en el que se circunscribe. A simple vista, parecería que el problema es de carácter tecnológico, entendiéndose que habría que compatibilizar protocolos de comunicación entre bases de datos, normalizar estructuras, plataformas, o que se requiere inmensos servidores que puedan almacenar semejante información o cosas así, empero, hoy en día la tecnología está tan avanzada que todo está disponible para que tecnológicamente un proyecto como este, no tenga mayores inconvenientes, siendo que el real problema es simplemente: el acceso a los datos.

Cuando se habla de "reunir" los datos, se sobreentiende que hoy en día están dispersos. Tómese como ejemplo un país cualquiera: Los datos estadísticos que genera tal país estarían en diversas fuentes, como ser, su instituto nacional de estadística, en los entes reguladores que tenga ese país, en las organizaciones privadas sectoriales, en sus bolsas de valores y en fin, cada una de esas fuentes de datos con sus propias políticas de manejo de su información, sus propias plataformas, sus propias tecnologías, sus propios sistemas de seguridad, procedimientos de acceso, procedimientos de actualización de datos, procedimiento de publicación de boletines, de publicación vía internet, etc. Lo que aquí debe comprenderse es que el propietario de los datos y quien puede mandar sobre ellos, es cada entidad que los administra. Si en el país de ejemplo existiere una asociación de empresas exportadoras, que para el caso sería la entidad que manejaría los datos de ese sector, esta asociación no podría entrometerse en las políticas de manejo de información de otra asociación, por decir, de aquella que aglutina al sector educación, que seguramente tendrá sus propias políticas y estrategias del manejo de datos sectorial. A su vez, ninguna de éstas podrá intervenir sobre los datos y su administración del banco central o su reserva federal de ese país y así sucesivamente.

Este ejemplo ha pretendido mostrar, por un lado, la dispersión de datos que existe, incluso dentro de un mismo país y la independencia que existe entre las distintas fuentes en la administración de su propia información. Por tanto, como cada cual es independiente, podría pensarse que, para que todas estas fuentes estén obligadas a proporcionar sus datos a un ente aglutinador de datos, se requeriría una ley que los fuerce a tal cosa y como es de cumplimiento obligatorio recién podría pensarse que tal país tenga un centro único de datos estadísticos. Pero ¿qué sucede con el resto de los países del mundo? Y luego ¿cómo se uniría los datos de cada país?

Si la opción forzosa es inviable, queda por explorar la opción que implica que las fuentes de datos, de forma voluntaria acepten traspasar sus datos a un único contenedor mundial y aquí se abren dos posibilidades: 1. Que cada fuente permita el acceso a sus bases de datos para que de ahí puedan ser extraída su información. 2. Que cada fuente cargue su información a la base datos del centro mundial.

Qué significa la opción voluntaria 1? Que con cada fuente debe establecerse una plataforma de comunicación, protocolos de seguridad, de acceso, de lectura de datos y otros. Si bien, como se mencionó, hoy en día existe la tecnología para hacer esto, la cantidad de trabajo humano que se requiere para enlazar a sólo una fuente es bastante grande. Dentro de un país cualquiera, existe con seguridad decenas, sino centenas de entidades que serían las fuentes de datos y a nivel mundial el número de fuentes se elevaría a decenas de miles, y para cada una de ellas se requeriría un grupo de ingenieros que se encargue del enlace tecnológico. Pero quizás algo aún más complicado sería encarar el proceso de negociación individual, para que cada una de ellas acepte que un ajeno se conecte a sus servidores y a sus bases de datos. En definitiva, esta opción 1 quedaría descartada por cualquier iniciativa que pretenda unificar los datos a nivel mundial.

Qué significa la opción voluntaria 2? Crear una única plataforma de comunicación para que de cualquier motor de base de datos y bajo cualquier estructura de la base, puedan migrarse los datos al centro mundial. Nuevamente, el problema no es la tecnología, pues hoy en día existen aplicaciones y plataformas que tienen la capacidad de hacer esto. El problema radica en que cada entidad tendría que decidir hacerlo y ahí surge la cuestionante de por qué lo haría?, cuál es su motivación?, cuál es su interés? Y para ello habría que volver al mismo punto de tener que encarar un proceso de negociación individual. Pero ¿puede encararse procesos de negociación individual con decenas de miles de entidades? Esta opción voluntaria 2 también quedaría descartada para cualquier proyecto que pretenda unir todos los datos estadísticos del planeta.

Cabe señalar que las experiencias que se han tenido en el campo del Mercado de Datos, las empresas han optado por la opción voluntaria 2, es decir, por negociar con fuentes de datos el traspaso de su información a su base de datos centralizada. Es comprensible suponer que cada una de esas iniciativas tuvo y tienen actualmente un alcance limitado, teniendo la posibilidad de ofrecer datos de sólo algunos sectores o sólo algunos temas o sólo algunas zonas geográficas. Las empresas y proyectos más representativos han estado siendo: Timetric, Google Public Data, Wolfram-Alpha, Infochimps, Factual, Freebase, Windows Azure Datamarket, BuzzData, Kasabi, Socrata's Open Data, Swivel, Verifiable, Thomson Reuters, Bloomberg, Factset. Es menester hacer notar que ninguno de ellos se ha aproximado a tener un porcentaje mínimo aceptable de lo que puede entender un proyecto que quiere aglutinar toda la información estadística del mundo, justamente, porque como se explicó, parecería no existir un camino u opción viable para concretar un proyecto de tal magnitud.

A simple vista, esto ha generado un paradigma, pues parece no ser posible acceder a los datos ni por la vía de la coerción, ni por la voluntaria. Parece que no es posible pensar en hacer extracciones individuales de datos, ni que ellos voluntariamente entreguen los suyos. En resumen, parecería no haber camino alguno, pero surge la pregunta: ¿Por qué tanto afán de tantas empresas de intentarlo?

El negocio del Mercado de Datos

Si bien es evidente que una considerable proporción de la población mundial requiere de datos estadísticos, es decir, existe una necesidad demostrada, también existe un problema que genera la brecha para que cada persona sea satisfecha en su necesidad. Este problema puede visualizárselo en el proceso habitual que seguiría cualquier sujeto en su consecución y uso de los datos:


1. La persona va a Internet y mediante un buscador comienza a poner distintos términos que le permitan visualizar páginas que tengan el contenido de datos que busca.

2. Cualquier buscador le proporcionará un sinfín de links a otras páginas, indicándole que ahí se encuentran los términos que busca.

3. La persona ahora tendrá el trabajo de ir abriendo página a página e ir recorriendo sus contenidos para ver si ahí se encuentran las bases de datos estadísticos del tema que busca. Después de revisar unas decenas de páginas se dará cuenta que no encuentra lo que quiere y volverá al buscador a probar suerte con otra combinación de palabras. Con eso, nuevamente comenzará su búsqueda página a página para ver si finalmente en su interior consigue lo que está buscando.

4. Cuando finalmente aterriza en la página web que puede darle la información, la siguiente etapa es la captura de los datos. Como cada fuente en independiente en sus políticas sobre entrega de datos, algunas páginas entregarán los datos en formatos Excel, otros en PDF, otros en despliegue HTML, otros mediante queries, otros como imágenes y demás. Si como ejemplo, la página tendría archivos históricos mensuales y se requieren datos para hacer un análisis al menos de los últimos 5 años, la persona tendría que bajar como 60 archivos.

5. Una vez obtenidos todos los archivos de datos necesarios, el usuario deberá procesarlos para poder trabajar con ellos en su posterior etapa de análisis. Este proceso eventualmente puede terminar siendo más complejo que todo lo anterior descrito. Supóngase que estos 60 archivos descargados están en formato PDF que contiene todas las tablas de datos que se requieren. La persona tendría que abrir un archivo, capturar la tabla de datos que requiere y convertirlo por ejemplo a un formato Excel. La migración entre formatos no siempre es adecuada por lo que será muy probable que tenga que revisar dato a dato que no hayan errores. Luego abrirá el segundo archivo y hará lo mismo, pero con la diferencia que ahora dentro del mismo Excel tendrá que comenzar a trabajar en un formato de almacenamiento de datos que soporte la unión de 2 meses, ya que el formato de la tabla original estaba diseñado para mostrar un mes. Eso significa que además de tener el trabajo de llevar datos de un PDF a Excel, luego se topará con trabajos en el mismo Excel para empalmar un mes con el anterior. Luego abre el tercero y así sucesivamente.

6. Cuando la persona acaba el trabajo de procesamiento de datos, recién está en condiciones de preparar la información hacia el objetivo que originalmente requería. Eso con seguridad le repercutirá en hacer transformaciones de datos, aplicación de filtros, preparación de vistas y otros.

7. Cuando acaba esa preparación de datos, recién comienza su etapa de análisis, fruto de lo cual se generaría el conocimiento necesario y arribaría a las conclusiones que requería.

Si esta persona usada en el ejemplo fuera un inversionista que requiere tomar una decisión, tuviera que sumergirse en todo eso proceso antes descrito, que para este inversionista no tiene ningún valor agregado, por el contrario, es un costo enorme el desperdicio de tanto tiempo, pues lo que él requiere es saltar directo al punto 7, analizar y tomar la decisión respectiva.

Ahí viene la pregunta que aclara el por qué tanto afán de intentar centralizar los datos estadísticos del mundo. Este inversionista de ejemplo, ¿cuánto estaría dispuesto a pagar por un servicio que cada día le permita llegar directo al punto 7? Y si se amplía más la pregunta: ¿cuánto estarían dispuestas a pagar todas las empresas del mundo, todos los consultores del mundo, todos los inversionistas del mundo, todos los organismos de desarrollo, etc. por tener acceso a que todos ellos lleguen directo al punto 7?

Dentro de lo que son los segmentos de mercado, con seguridad que el segmento que abarcaría este servicio debe ser el más codiciado. No apunta a niños, amas de casa, adolescentes, sino a aquel segmento económicamente más poderoso e influyente: corporaciones, inversionistas, gobiernos, ejecutivos y más.

Si alguien logra conseguir dar a este segmento este servicio, sin importar el modelo del negocio, con seguridad que tendrá una de las empresas más exitosas del mundo. Ese es el afán de seguir intentando reunir los datos estadísticos del mundo. Ahora, con la secuencia del proceso descrito, puede verse que algunas empresas se han concentrado en brindar servicios que acorten el paso 2 ofreciendo listados de links a páginas de las fuentes, otras han llegado al paso 3, de ofrecer links clasificados por temas, otras empresas han llegado hasta el paso 4, de ofrecer acceso directo a los datos de varias fuentes de información y las más avanzadas han llegado a ofrecer el proceso 5. Aún no se tiene el caso de empresas que estén ofreciendo el paso 6, aclarando que el 7 es un proceso que aplica el usuario empleando las herramientas que él ve por conveniente. La experiencia que, en nuestro criterio, más se acerca, es la nueva Windows Azure Datamarket de la Microsoft, que ofrece hasta el proceso 5 e intenta que el usuario a través del arsenal de software que dispone la Microsoft integre distintas herramientas que le permitan acortar el paso 6, proveyéndole aplicaciones que potencien el paso 7. La cuestión de Azure Datamarket es que pese al basto conjunto de soluciones tecnológicas que dispone, lo que no tiene son datos. Hasta la fecha de elaboración de este documento Azure disponía en oferta 91 bases de datos. Para visualizar de cuánto se trata esta información que tiene Azure, nótese que se estima que la composición total del número de bases de datos existentes en el mundo está en el orden de 150.000. Pero si ninguna empresa o proyecto en el mundo (entre las que se incluyen Google y Microsoft) están logrando alcanzar este propósito por todas las complejidades que involucra, ¿qué posibilidades se tiene de hacerlo?

El proyecto JASDOW

La idea de este proyecto nace el año 2003. Desde ese entonces hasta la fecha se ha venido trabajando arduamente en el tema. Aprovechando la explicación anterior, puede resumirse que JASDOW plantea ofrecer acceso directo al punto 7, sin embargo, como se vio, este tema del proceso está muy ligado a la tecnología y la tecnología no es el problema, sino el acceso a los datos. Lo que propone JASDOW es romper el paradigma de las opciones bloqueadas y crear una nueva opción:

Para demostrar la hipótesis de la nueva opción que planteaba JASDOW, durante varios años se desarrolló la tecnología necesaria. El 2008 se terminó su desarrollo en versión alpha y era necesario ponerla a prueba. Para ello, se eligió un país. JASDOW permitió obtener de ese país cerca de 400 bases de datos, habiendo alcanzado con éxito el resultado esperado, demostrando que JASDOW permitía el camino alternativo para finalmente alcanzar a obtener los datos que se requieren para lograr unir toda la información estadística del planeta

Por otro lado, tenía que verificarse que era posible permitir a una persona saltar de su necesidad al paso 7. Se desarrolló un software de prueba y éste fue testeado y probado por las empresas más grandes del país, entre las que se cuentan empresas de telecomunicaciones, empresas petroleras y bancos. Hoy en día y como muestra de su satisfacción, todas estas empresas son usuarias de este servicio.

Teniendo probadas las versiones preliminares de la tecnología que habrá de emplearse, se procedió al diseño de las versiones finales, cuyo desarrollo es el siguiente desafío de este proyecto. Con esto listo, se comenzaría con el proceso de acumulación de datos de todos los países, para posteriormente liberar el servicio a la población mundial. Con seguridad que dentro del futuro modelo de negocio, será Internet el principal canal de distribución y difusión, abriendo distintas posibilidades de generación de valor. Puede usarse el esquema de brindar una poderosa página web con servicio gratuito, derivando la generación de ingresos a modelos de publicidad y afiliación, similar al buscador de Google, Yahoo o Facebook. Puede verse una combinación de servicios gratuitos con servicios Premium pagados. Puede aprovecharse esta plataforma para generar modelos de Revenue Sharing con proveedores actuales de información especializada privada. En fin, las posibilidades de generación de valor que ofrecería el producto serían cuantiosas.

Si tiene interés en conocer más de este proyecto contáctese con nosotros.

Version 2.0.0