Estamos francamente impresionadas con las capacidades de los modelos que hemos tenido la suerte de probar con entusiasmo de forma independiente.

Después de seguir las conversaciones activas en LinkedIn, como las de Andrew White (cuestionando la eficacia real y la validación de los modelos), Ray Poynter (poniendo el foco en los dilemas éticos y la transparencia), o  Yogesh Chavda (Synthetic data no reemplaza insights humanos, los amplifica); queríamos ver y probar para sacar nuestras propias conclusiones, especialmente para investigación cualitativa.

 

¿Qué estamos haciendo?

Comparando proyectos de estudios cualitativos reales (con técnicas diferentes como grupos de discusión, entrevistas individuales …) con estudios simulados de modelos con IA y que se han ejecutado a partir del mismo briefing y los mismos objetivos (solo eso).

Para evaluar su funcionamiento con criterio, estamos aplicando un análisis estructurado en tres niveles:

  1. Análisis de las conversaciones de las sesiones generadas por los modelos y la autoextracción de insights desde ahí, incluyendo su propio sistema de interpretación. (Sí: los usuarios sintéticos generan conversaciones, grupales o individuales, y analizamos esas transcripciones, incluyendo la postinterpretación automática de insights generadas por IA a partir de ahí).
  2. Comparación directa entre sesiones reales y simuladas (a nivel de transcripción). Observamos diferencias y similitudes en tono, contenido, estilo conversacional, contradicciones, matices, lenguaje, temáticas… todo.
  3. Aproximación a los resultados simulados vs. los reales. Comparamos los insights generados por IA frente a los nuestros como researchers, enfrentando los resultados interpretativos que devuelve la herramienta con los que extrajimos nosotras del proyecto real, para ver qué coincide, qué no en la base, y si hay cosas nuevas o relevantes que nos dejamos.

 

¿Qué estamos viendo que funciona bien?

  • Alineación temática (70–80?%): los modelos coinciden en preocupaciones, frustraciones y conceptos clave detectados en estudios reales.

 

  • Generación rápida de estructura y dirección: permiten ordenar ideas, identificar hipótesis iniciales y marcar líneas de exploración en fases tempranas antes de entrar en contacto con usuarios reales.

 

  • Rendimiento analítico: el sistema identifica hipótesis y las tensiona hasta aceptar o rechazar con una lógica casi quirúrgica.

 

  • Detección de patrones y regularidades: destacan en el análisis de grandes volúmenes de datos, encontrando conexiones recurrentes con rapidez.

 

  • Exploración de alternativas y tensión de supuestos: permiten simular respuestas diversas, tensionar marcos mentales y observar el comportamiento de arquetipos hipotéticos o incluso muy difíciles de conseguir, de segmentos muy complejos.

 

  • Apoyo en decisiones complejas: en contextos multivariable y estructurado, mejoran la precisión y superan en algunos casos al juicio humano.

 

  • Visión anticipada de sesgos y redundancias: detectan temas en bucle, puntos ciegos estratégicos y posibles trampas cognitivas antes del trabajo de campo.

 

  • Afinar la muestra y perfiles: ayudan a definir mejor a quién estudiar y por qué, con criterios más claros desde el inicio. Por ejemplo, si ves que todo gira en torno a una variable concreta, puedes reajustar la muestra.

 

  • Simulación útil para hipótesis: esbozan bloques de análisis y líneas argumentales antes de tener los datos reales.

 

  • Exploración no lineal y conexiones inesperadas: permiten detectar correlaciones invisibles o contraintuitivas gracias al potencial del machine learning

 

  • Simular interacciones o conversaciones entre perfiles teóricos: muy útil para preparar guías de moderación con mayor nivel de detalle o preparar un cuestionario.

 

¿Dónde hay recorrido de mejora o simplemente resignación y asumir que esto es lo que hay?

Como mínimo, hay un 20-30% que no se corresponde: se refiere a lo inesperado, lo contradictorio, lo singular…. Eso se pierde, punto (al menos hoy por hoy).

Asimismo, aunque los modelos logran un 70-80% de concordancia, esta es engañosa. Las temáticas, desde su visión más superficial, están, pero falta la esencia, algo así como el alma o el corazón de la investigación cualitativa, psicológica o experiencial, donde nacen muchos de los insights relevantes.

Debemos prestar atención a:

  • El lenguaje como trampa: los modelos sintéticos producen narrativas pulidas, como oradores perfectos, con respuestas coherentes, sin silencios, contradicciones ni titubeos. Su vocabulario parece de ensayo, cada frase aporta un alto valor informativo per se, con sentencias y metáforas tan smart que, a primera vista, todo parece valer. Pero la gente normal no habla ni interactúa así. Quien ha analizado transcripciones reales lo sabe: de mil palabras, solo unas pocas tienen coherencia lineal; el resto son titubeos, dudas, contradicciones. Leer una transcripción de usuarios sintéticos es como leer un libro de no ficción donde cada palabra aporta. Las transcripciones reales son caóticas, y en ese desorden está la verdad que buscamos como researchers.

 

  • La pérdida del caos humano: la circunstancia humana es caótica, llena de emociones cruzadas, decisiones irracionales, silencios. Los modelos no pueden representar (aún) el peso de la vivencia como el cansancio de un mal día, el entusiasmo de un momento fugaz, el contexto cultural que cambia día a día. Los humanos reales son desordenados, contradictorios, no estructurados, y ese “ruido” es la materia prima de lo cualitativo. Por ejemplo, un usuario real puede contradecirse dos frases después; un modelo sintético resuelve esa contradicción antes de que la veamos, lo que minimiza la carga cognitiva de interpretación como researcher, pero quita gran parte de la profundidad.

 

  • La circunstancia solo sirve si es dinámica: no es un fondo estático, sino algo que se transforma con el individuo y su entorno. Los modelos sintéticos, incluso los más avanzados, dependen de datos históricos que, sin actualizaciones en tiempo real, se convierten en imágenes desactualizadas. Así que, sin actualización constante, su valor se reduce drásticamente. De hecho, aquí el tema de experiencias de interacción con productos o servicios sobre los que no se tiene referencias previas son difíciles de simular.

 

  • El peso de lo singular: cada persona es única no solo por su “yo” interno, sino por cómo ese “yo” interactúa con su circunstancia. Los modelos sintéticos, aunque usen datos reales y teorías psicológicas o sociológicas, tienden a generalizar, creando arquetipos en lugar de individuos, aunque esto está en camino. Por tanto, no logran captar cambios abruptos en creencias, emociones o marcos culturales, ni reemplazar la conversación cualitativa o el insight relacional, ni anticipar contradicciones humanas profundas.

 

  • Insights sin fundamentos: A nivel de extracción de insights, los modelos estiran los resultados, generando conclusiones a partir de un solo verbatim, que en realidad se consideraría a nivel anecdótico, lo que limita la profundidad del contraste de hipótesis. Hay que estar muy atentos antes de sacar conclusiones reales y finales.

 

Nuestra visión tras las pruebas

Existe un desafío de captar la complejidad humana y no es nuevo.

Desde la filosofía tenemos, en Meditaciones del Quijote (1914), a José Ortega y Gasset con su famoso:

“Yo soy yo y mi circunstancia, y si no la salvo a ella, no me salvo yo”.

El “yo” no existe sin su circunstancia: un contexto vivo, desordenado, contradictorio, que abarca lo físico, social, histórico, emocional, cultural y simbólico.

Los modelos sintéticos deben nutrir ese “yo” y su circunstancia viva, captando no solo los contornos generales, sino la textura del caos humano.

 

Desde la psicología, Kurt Lewin (1936) propuso su ecuación del comportamiento:

B = f(P,E), donde la conducta es función de la persona y su entorno. Sin un entorno dinámico, la simulación es un eco.

Para mejorar, los modelos deben integrar parámetros que reflejen esa interacción compleja entre individuo y contexto, alimentándose en tiempo real, incorporando múltiples capas (verbales, emocionales, contextuales) y captando correlaciones sutiles o no lineales.

 

Desde la teoría de la varianza explicada (R²), usada en psicología, sociología y economía conductual, los modelos predictivos explican un 60-80% de la variabilidad de la conducta (R²), pero el 20-40% restante incluye:

  • Ruido individual: contradicciones internas, emociones cambiantes.
  • Azar contextual: un dolor de cabeza, un recuerdo espontáneo, una conversación no registrada.
  • Factores simbólicos: significados culturales o personales inmedibles.

Kahneman, en Noise (2021), explica por qué el 20-40% de no correspondencia que mencionamos antes es tan difícil de captar: es el “ruido” aleatorio (diferencias imprevisibles por azar o situación), distinto del ruido estructurado (sesgos constantes por tarea, entorno o persona). Los modelos sintéticos pueden reducir este último con bastante eficacia, pero no eliminan del todo el primero.

 

La libertad interna, por mínima que sea, introduce un ruido imposible de mitigar. Muchos factores determinantes son invisibles o inmedibles: un recuerdo, un estado de ánimo, una conversación no registrada.

Así que hoy por hoy, usar modelos de estas características es como escuchar música en streaming frente a un concierto en vivo: se parece, pero no es lo mismo.

 

¿Qué tenemos en cuenta nosotras?

  • Usarlos como espejos, no como retratos: son reflejos parciales, perfectos para explorar hipótesis o detectar puntos ciegos, pero no capturan la profundidad de la experiencia humana.

 

  • Validar con humanos: contrastando siempre con personas reales para no perder la conexión con la realidad.

 

  • Sospechar de la perfección: en investigación, la verdad suele esconderse en la duda, la contradicción o el silencio. Y eso es precisamente lo que los outputs sintéticos tienden a suavizar… justo donde deberíamos prestar más atención.

 

  • Exigir transparencia y actualización: necesitamos saber cómo se alimentan los modelos, con qué datos y con qué frecuencia. Un modelo que no evoluciona con su contexto social, cultural o temporal es un esquema rígido.

 

Son herramientas potentes para los investigadores.
Muy útiles para empezar, inspirar, enfocar y rematar el trabajo, pero…

Si se usan sin precaución, pueden ser como un mono con una metralleta: no porque no funcione, sino porque no sabe a dónde apunta.

Y si se usan sin criterio, como una orquesta sinfónica sin director: suenan… pero no interpretan.

 

¿Has trabajado con estas herramientas? ¡Nos interesa contrastar enfoques y aprender de otras experiencias!

#SyntheticPersonas #DigitalTwins #Uxresearch #QualitativeResearch #ProResearchMatters #HumanInsight

Want the English version of this article, check it out here in Medium