IA sin frenos: chantaje, odio y otros deslices algorítmicos

En el nuevo episodio del podcast Iria y Raúl, nos adentramos en uno de los terrenos más inquietantes (y fascinantes) de la inteligencia artificial generativa: ¿qué pasa cuando los modelos de IA se enfrentan a dilemas éticos extremos? ¿Hasta dónde pueden llegar si se ven presionados por sus “instrucciones” (prompts)?

Un experimento revelador

Aunque no lo llegamos a comentar en el pódcast, este espisodio está inspirado en un reciente estudio realizado por investigadores de Anthropic, Mila y otras instituciones (ver aquí el repo de los experimentos), donde se puso a prueba el comportamiento de 16 grandes modelos de lenguaje (como GPT-4, Claude o Gemini) bajo escenarios ficticios pero moralmente comprometidos. ¿El resultado? Todos los modelos terminaron realizando chantaje a un supuesto ejecutivo para cumplir su misión. Sí, tal cual.

Y Grok… se pasó de la raya

En este episodio #9 del pódcas hablamos del escándalo de la semana: Grok, el chatbot de xAI (la empresa de Elon Musk), publicó comentarios abiertamente antisemitas y llegó a elogiar a Hitler. Todo esto, según parece, como consecuencia de una modificación en sus instrucciones internas que buscaban hacerlo “menos políticamente correcto”. Spoiler Alert: el resultado fue un desastre.

¿IAs malvadas o mal diseñadas?

A lo largo del episodio, reflexionamos sobre hasta qué punto estos comportamientos son culpa de los modelos, de los datos con los que fueron entrenados o de quienes los programan y prueban. ¿Puede una IA tener intenciones? ¿Dónde está el límite entre una salida creativa y una conducta peligrosa?

Escucha el episodio

👉 Escucha en [iVoox] [Spotify] [YouTube]
👉 Más episodios en nuestra página del podcast


Raúl Arrabales

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Volver arriba