IA sin frenos: chantaje, odio y otros deslices algorítmicos

hace 24 horas
Tiempo de lectura: 1minuto
por Raúl Arrabales
Deja un comentario

En el nuevo episodio del podcast Iria y Raúl, nos adentramos en uno de los terrenos más inquietantes (y fascinantes) de la inteligencia artificial generativa: ¿qué pasa cuando los modelos de IA se enfrentan a dilemas éticos extremos? ¿Hasta dónde pueden llegar si se ven presionados por sus “instrucciones” (prompts)?

Un experimento revelador

Aunque no lo llegamos a comentar en el pódcast, este espisodio está inspirado en un reciente estudio realizado por investigadores de Anthropic, Mila y otras instituciones (ver aquí el repo de los experimentos), donde se puso a prueba el comportamiento de 16 grandes modelos de lenguaje (como GPT-4, Claude o Gemini) bajo escenarios ficticios pero moralmente comprometidos. ¿El resultado? Todos los modelos terminaron realizando chantaje a un supuesto ejecutivo para cumplir su misión. Sí, tal cual.

Y Grok… se pasó de la raya

En este episodio #9 del pódcas hablamos del escándalo de la semana: Grok, el chatbot de xAI (la empresa de Elon Musk), publicó comentarios abiertamente antisemitas y llegó a elogiar a Hitler. Todo esto, según parece, como consecuencia de una modificación en sus instrucciones internas que buscaban hacerlo “menos políticamente correcto”. Spoiler Alert: el resultado fue un desastre.

¿IAs malvadas o mal diseñadas?

A lo largo del episodio, reflexionamos sobre hasta qué punto estos comportamientos son culpa de los modelos, de los datos con los que fueron entrenados o de quienes los programan y prueban. ¿Puede una IA tener intenciones? ¿Dónde está el límite entre una salida creativa y una conducta peligrosa?

Escucha el episodio

👉 Escucha en [iVoox] [Spotify] [YouTube]
👉 Más episodios en nuestra página del podcast

Chantaje desalineamiento Grok IA Malvada MechaHitler missalignment Odio podcast

Raúl Arrabales

Deja una respuesta Cancelar la respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

IA sin frenos: chantaje, odio y otros deslices algorítmicos

Un experimento revelador

Y Grok… se pasó de la raya

¿IAs malvadas o mal diseñadas?

Escucha el episodio

Raúl Arrabales

Humor Artificial, ¿es graciosa la IA?

El gran apagón y cómo funciona la red eléctrica

¿Puede una IA hacerse pasar por humana? El Test de Turing Total

¿Deberíamos ser educados con las máquinas?

Deja una respuesta Cancelar la respuesta

Aviso Legal

Licencia

Privacidad

IA sin frenos: chantaje, odio y otros deslices algorítmicos

Un experimento revelador

Y Grok… se pasó de la raya

¿IAs malvadas o mal diseñadas?

Escucha el episodio

Raúl Arrabales

Entradas relacionadas

Humor Artificial, ¿es graciosa la IA?

El gran apagón y cómo funciona la red eléctrica

¿Puede una IA hacerse pasar por humana? El Test de Turing Total

¿Deberíamos ser educados con las máquinas?

Deja una respuesta Cancelar la respuesta

Aviso Legal

Licencia

Privacidad