Por Javier Surasky
¿Cuánto sabemos los usuarios de la IA sobre cómo se generan y gestionan los datos que, junto con el poder de computación, permiten sus avances? La IA ha transformado muchas dinámicas sociales y seguirá transformándolas, pero quienes investigamos en el campo de las ciencias sociales, ¿comprendemos los procesos que subyacen a los macrodatos que utilizan los modelos e IA que integramos en nuestras investigaciones? ¿Sabemos “operar” con una base de datos?
Los datos dejaron de ser un insumo accesorio para
convertirse en un activo estratégico. Se habla mucho de la competencia entre empresas
y entre Estados por liderar los mercados de datos, sobre temas de privacidad e
incluso sobre apropiación de datos, pero los investigadores en ciencias
sociales seguimos teniendo una formación limitada en la materia, que exige
trabajar con fórmulas matemáticas y estadísticas complejas que dejamos en manos
de ingenieros, informáticos, matemáticos y afines.
Es un error grave. Es una responsabilidad irrenunciable para
cualquier investigador en el área social entender cómo se generan, limpian,
transforman y modelan los datos como parte del ejercicio responsable de su
labor.
La minería de datos y el ciclo KDD (Generación de conocimiento a partir de bases de datos) forman parte de una nueva alfabetización para investigadores sociales: ayudan a pasar del “hay datos” al “hay conocimiento” y del conocimiento a decisiones más informadas y responsables.
La distinción entre minería de datos y aprendizaje
automático es crucial para no confundir herramientas con propósitos. Mientras
el aprendizaje automático prioriza la precisión del resultado, la minería de
datos se orienta a comprender los datos generados. Crea modelos explicativos,
transparentes e interpretables que, para quienes trabajamos con fenómenos
sociales, donde los procesos importan tanto como los resultados, entender los
procesos que siguen los datos o que podemos aplicar a los datos es fundamental:
buscamos saber por qué algo ocurre y no solo saber cómo manejar lo que ocurre.
Desde esa mirada, el ciclo KDD nos ofrece un marco ordenado
para transformar datos en información y luego a esta en conocimiento a través
de una secuencia ordenada e iterativa en el que cada etapa retroalimenta a la
siguiente, partiendo desde una definición clara del objetivo: sin una pregunta
bien planteada, los datos solo generan ruido. A la definición del objetivo le
siguen la recolección y preparación de datos, donde trabajamos con faltantes,
inconsistencias e incoherencia en nuestras bases de datos. Luego viene la
exploración y transformación de los datos, la fase más larga y decisiva, cuyos
resultados determinarán la calidad final de los datos con los que se va a
trabajaren la construcción de modelos, cuyos resultados nos dan la información
que necesitamos para crear conocimiento basado en evidencia y datos que pueda
incorporarse a la toma de decisiones sociales concretas.
Nada de esto es ajeno al modo en que las ciencias sociales
trabajan: es, simplemente, una versión más sistemática y automatizada de
nuestro propio método investigativo. No es un límite a nuestra capacidad de
hallar respuestas, es potenciar las oportunidades de hacerlo.
En IA es habitual que hasta el 80% del tiempo de un proyecto
se invierta en limpiar, ordenar y transformar datos. ¿Cuánto le dedicamos a ese
mismo esfuerzo en la investigación social? El tiempo que insume ese trabajo no
es “tiempo perdido” sino inversión en calidad de resultados finales.
Las decisiones sobre qué datos usar, cuáles de ellos
conservar y cuáles eliminar, requieren que se apliquen criterios claros basados
en el objetivo definido, el conocimiento contextual y la lectura crítica del
fenómeno bajo estudio.
A estas tareas se suma la transformación de atributos: crear
nuevas variables, combinar otras, elegir escalas adecuadas, numerizar o
discretizar según lo que requiera cada algoritmo que pensemos utilizar. Las
ciencias sociales ya trabajan con conceptos derivados como índices, tasas,
proporciones, categorías, reglas. La minería de datos formaliza las operaciones
que científicos sociales ya realizan haciendo explícitos los criterios
matemáticos y estadísticos detrás de ellas, lo que da a todo el proceso de investigación
una mayor transparencia.
Una vez que los datos están listos, comienzan a aparecer los
patrones, y nuevamente la elección de combinatorias de datos es crítica para la
calidad de los resultados: el Análisis de Componentes Principales (PCA) reduce dimensiones
y exhibe estructuras subyacentes, mientras que técnicas, como las redes de
Kohonen o los autoencoders, capturan relaciones no lineales y descubren
estructuras complejas imposibles de encontrar aplicando los métodos
tradicionales. Cada una de estas, y tantas otras, técnicas abre una ventana
diferente hacia los datos y, en consecuencia, hacia la información y el
conocimiento.
El agrupamiento (clustering) es la técnica más intuitiva
para quienes venimos de las ciencias sociales: agrupa elementos similares sin
necesidad de categorías predefinidas. Es la lógica detrás de segmentaciones de
votantes, patrones de consumo cultural, perfiles de beneficiarios de políticas
sociales o tipologías de países en relaciones internacionales. Algoritmos como
K-means o HDBSCAN permiten encontrar grupos naturales sin imponer estructuras previas,
mientras que métricas como Silhouette o Davies-Bouldin nos ayudan a evaluar la
calidad de los agrupamientos.
Todo este proceso técnico tiene una dimensión ética y
jurídica ineludible. La protección de datos personales, la minimización, la no
discriminación algorítmica, la responsabilidad por modelos erróneos y el
derecho a la explicación son condiciones para que la investigación basada en
datos sea legítima, y quienes trabajamos con datos debemos asumir esa
responsabilidad con rigor.
La conclusión es clara: las ciencias sociales no pueden
permanecer al margen de los procesos de trabajo con datos. No solo debe ser
“usuaria” sino también instalarse en su producción y tratamiento: la minería de
datos necesita de preguntas y objetivos bien formulados, interpretaciones
contextualizadas, miradas críticas, comprensión de sesgos estructurales,
saberes expertos y sensibilidad social. Ningún algoritmo ofrece eso por naturaleza.
Integrar a las ciencias sociales y los datos abre nuevas posibilidades
para fortalecer la investigación. Comprender la lógica del ciclo KDD, el preprocesamiento, las transformaciones y las técnicas centrales no busca convertir a los científicos sociales en matemáticos, sino aumentar su autonomía y criterio en un mundo donde los datos organizan cada vez más las sociedades y los fenómenos que investigamos.
Muy pronto publicaré un trabajo titulado Minería de
datos para científicos sociales. Introducción a conceptos, métodos y métricas
para el uso responsable de la IA en investigación social donde se hace un
análisis profundo de estos temas y se explican, con el menor recurso a fórmulas
matemático-estadísticas, los principales procesos de trabajo con datos, porque
creo sinceramente que, como lo señalo al final de esta obra, la integración
entre las ciencias sociales y el análisis de datos es condición para generar
conocimiento sólido en el siglo XXI y exige a los investigadores sociales
recorrer nuevas cartografías de los datos y apropiarse de ellas en beneficio de
las sociedades y las personas, razón última de nuestra labor científica.
