Científicos sociales y minería de datos

Por Javier Surasky


¿Cuánto sabemos los usuarios de la IA sobre cómo se generan y gestionan los datos que, junto con el poder de computación, permiten sus avances? La IA ha transformado muchas dinámicas sociales y seguirá transformándolas, pero quienes investigamos en el campo de las ciencias sociales, ¿comprendemos los procesos que subyacen a los macrodatos que utilizan los modelos e IA que integramos en nuestras investigaciones? ¿Sabemos “operar” con una base de datos?

Los datos dejaron de ser un insumo accesorio para convertirse en un activo estratégico. Se habla mucho de la competencia entre empresas y entre Estados por liderar los mercados de datos, sobre temas de privacidad e incluso sobre apropiación de datos, pero los investigadores en ciencias sociales seguimos teniendo una formación limitada en la materia, que exige trabajar con fórmulas matemáticas y estadísticas complejas que dejamos en manos de ingenieros, informáticos, matemáticos y afines.

Es un error grave. Es una responsabilidad irrenunciable para cualquier investigador en el área social entender cómo se generan, limpian, transforman y modelan los datos como parte del ejercicio responsable de su labor.

La minería de datos y el ciclo KDD (Generación de conocimiento a partir de bases de datos) forman parte de una nueva alfabetización para investigadores sociales: ayudan a pasar del “hay datos” al “hay conocimiento” y del conocimiento a decisiones más informadas y responsables.

La distinción entre minería de datos y aprendizaje automático es crucial para no confundir herramientas con propósitos. Mientras el aprendizaje automático prioriza la precisión del resultado, la minería de datos se orienta a comprender los datos generados. Crea modelos explicativos, transparentes e interpretables que, para quienes trabajamos con fenómenos sociales, donde los procesos importan tanto como los resultados, entender los procesos que siguen los datos o que podemos aplicar a los datos es fundamental: buscamos saber por qué algo ocurre y no solo saber cómo manejar lo que ocurre.

Desde esa mirada, el ciclo KDD nos ofrece un marco ordenado para transformar datos en información y luego a esta en conocimiento a través de una secuencia ordenada e iterativa en el que cada etapa retroalimenta a la siguiente, partiendo desde una definición clara del objetivo: sin una pregunta bien planteada, los datos solo generan ruido. A la definición del objetivo le siguen la recolección y preparación de datos, donde trabajamos con faltantes, inconsistencias e incoherencia en nuestras bases de datos. Luego viene la exploración y transformación de los datos, la fase más larga y decisiva, cuyos resultados determinarán la calidad final de los datos con los que se va a trabajaren la construcción de modelos, cuyos resultados nos dan la información que necesitamos para crear conocimiento basado en evidencia y datos que pueda incorporarse a la toma de decisiones sociales concretas.

Nada de esto es ajeno al modo en que las ciencias sociales trabajan: es, simplemente, una versión más sistemática y automatizada de nuestro propio método investigativo. No es un límite a nuestra capacidad de hallar respuestas, es potenciar las oportunidades de hacerlo.

En IA es habitual que hasta el 80% del tiempo de un proyecto se invierta en limpiar, ordenar y transformar datos. ¿Cuánto le dedicamos a ese mismo esfuerzo en la investigación social? El tiempo que insume ese trabajo no es “tiempo perdido” sino inversión en calidad de resultados finales.

Las decisiones sobre qué datos usar, cuáles de ellos conservar y cuáles eliminar, requieren que se apliquen criterios claros basados en el objetivo definido, el conocimiento contextual y la lectura crítica del fenómeno bajo estudio.

A estas tareas se suma la transformación de atributos: crear nuevas variables, combinar otras, elegir escalas adecuadas, numerizar o discretizar según lo que requiera cada algoritmo que pensemos utilizar. Las ciencias sociales ya trabajan con conceptos derivados como índices, tasas, proporciones, categorías, reglas. La minería de datos formaliza las operaciones que científicos sociales ya realizan haciendo explícitos los criterios matemáticos y estadísticos detrás de ellas, lo que da a todo el proceso de investigación una mayor transparencia.

Una vez que los datos están listos, comienzan a aparecer los patrones, y nuevamente la elección de combinatorias de datos es crítica para la calidad de los resultados: el Análisis de Componentes Principales (PCA) reduce dimensiones y exhibe estructuras subyacentes, mientras que técnicas, como las redes de Kohonen o los autoencoders, capturan relaciones no lineales y descubren estructuras complejas imposibles de encontrar aplicando los métodos tradicionales. Cada una de estas, y tantas otras, técnicas abre una ventana diferente hacia los datos y, en consecuencia, hacia la información y el conocimiento.

El agrupamiento (clustering) es la técnica más intuitiva para quienes venimos de las ciencias sociales: agrupa elementos similares sin necesidad de categorías predefinidas. Es la lógica detrás de segmentaciones de votantes, patrones de consumo cultural, perfiles de beneficiarios de políticas sociales o tipologías de países en relaciones internacionales. Algoritmos como K-means o HDBSCAN permiten encontrar grupos naturales sin imponer estructuras previas, mientras que métricas como Silhouette o Davies-Bouldin nos ayudan a evaluar la calidad de los agrupamientos.

Todo este proceso técnico tiene una dimensión ética y jurídica ineludible. La protección de datos personales, la minimización, la no discriminación algorítmica, la responsabilidad por modelos erróneos y el derecho a la explicación son condiciones para que la investigación basada en datos sea legítima, y quienes trabajamos con datos debemos asumir esa responsabilidad con rigor.

La conclusión es clara: las ciencias sociales no pueden permanecer al margen de los procesos de trabajo con datos. No solo debe ser “usuaria” sino también instalarse en su producción y tratamiento: la minería de datos necesita de preguntas y objetivos bien formulados, interpretaciones contextualizadas, miradas críticas, comprensión de sesgos estructurales, saberes expertos y sensibilidad social. Ningún algoritmo ofrece eso por naturaleza.

Integrar a las ciencias sociales y los datos abre nuevas posibilidades para fortalecer la investigación. Comprender la lógica del ciclo KDD, el preprocesamiento, las transformaciones y las técnicas centrales no busca convertir a los científicos sociales en matemáticos, sino aumentar su autonomía y criterio en un mundo donde los datos organizan cada vez más las sociedades y los fenómenos que investigamos.

Muy pronto publicaré un trabajo titulado Minería de datos para científicos sociales. Introducción a conceptos, métodos y métricas para el uso responsable de la IA en investigación social donde se hace un análisis profundo de estos temas y se explican, con el menor recurso a fórmulas matemático-estadísticas, los principales procesos de trabajo con datos, porque creo sinceramente que, como lo señalo al final de esta obra, la integración entre las ciencias sociales y el análisis de datos es condición para generar conocimiento sólido en el siglo XXI y exige a los investigadores sociales recorrer nuevas cartografías de los datos y apropiarse de ellas en beneficio de las sociedades y las personas, razón última de nuestra labor científica.