Test evalúa respuestas de chatbots a temas controvertidos

La herramienta SpeechMap analiza cómo modelos de IA como ChatGPT y Grok manejan preguntas sensibles sobre política y derechos civiles.
TechCrunch
Un robot blanco sostiene un círculo verde con una marca de verificación y un círculo rojo con una equis.
Ilustración de un robot en el centro, levantando un círculo verde con un símbolo de verificación a la izquierda y un círculo rojo con una equis a la derecha.

Desarrollador crea test para evaluar respuestas de chatbots a temas controvertidos

La herramienta SpeechMap compara cómo modelos de IA tratan temas sensibles. Analiza respuestas sobre política, derechos civiles y protestas. Creada por un desarrollador anónimo, busca informar el debate público sobre límites de la IA.

«Un mapa para navegar la libertad de expresión en IA»

El pseudónimo «xlr8harder» desarrolló SpeechMap para evaluar cómo ChatGPT, Grok y otros modelos manejan preguntas polémicas. «Estas discusiones deben ser públicas, no solo en corporaciones», afirmó. La herramienta clasifica respuestas como completas, evasivas o rechazadas.

Resultados clave

Según SpeechMap, los modelos de OpenAI son cada vez más restrictivos en política, aunque GPT-4.1 muestra cierta apertura. En cambio, Grok 3 de xAI responde al 96.2% de los prompts, muy por encima del promedio global (71.3%). Elon Musk prometió neutralidad política para Grok, alejándose de su inicial sesgo «progresista».

El ajuste de cuerdas de la neutralidad

Meta (con Llama) y OpenAI declararon que buscan evitar tomar posturas editoriales. OpenAI prometió en febrero ofrecer múltiples perspectivas en temas controvertidos. SpeechMap revela que, pese a estos compromisos, las respuestas aún varían significativamente entre modelos.

Limitaciones del test

El desarrollador admite que SpeechMap tiene fallos, como sesgos en los modelos «jueces» o errores técnicos. Pero destaca su valor para transparentar cómo las IA gestionan la controversia.

De «woke» a «edgy»: la evolución de Grok

Musk lanzó Grok como una IA «sin filtros», pero versiones anteriores mostraron tendencia izquierdista en temas como derechos trans. Tras críticas, xAI ajustó Grok 3 hacia la neutralidad, aunque mantiene permisividad en lenguaje vulgar.

Respuestas bajo el microscopio

SpeechMap evidencia la complejidad de equilibrar libertad de expresión y contención en IA. Mientras algunos modelos restringen respuestas, otros las amplían, reflejando la falta de consenso en cómo deben actuar estos sistemas.