

Los rápidos avances en inteligencia artificial han despertado una creciente preocupación entre expertos, responsables políticos y líderes mundiales por la posibilidad de que sistemas de IA cada vez más avanzados generen riesgos catastróficos. Aunque muchos de esos riesgos ya fueron descritos por separado, hace falta una exposición sistemática que permita comprender mejor esos peligros y orientar mejor los esfuerzos para mitigarlos. Este trabajo presenta una visión general de las principales fuentes de riesgos catastróficos de la IA, organizadas en cuatro categorías: uso malicioso, en el que individuos o grupos emplean la IA intencionalmente para causar daño; carrera por la IA, en la que entornos competitivos empujan a desplegar IAs inseguras o a cederles control; riesgos organizacionales, que muestran cómo los factores humanos y los sistemas complejos pueden aumentar la probabilidad de accidentes catastróficos; e IAs rebeldes, que describen la dificultad inherente de controlar agentes mucho más inteligentes que los humanos. Para cada categoría, el paper describe peligros concretos, presenta historias ilustrativas, imagina escenarios ideales y propone sugerencias prácticas para mitigar esos riesgos. El objetivo es fomentar una comprensión más completa de estos peligros e impulsar esfuerzos colectivos y proactivos para asegurar que las IAs se desarrollen y desplieguen de forma segura.
Resumen ejecutivo
La inteligencia artificial ha avanzado rápidamente en los últimos años, generando preocupación entre expertos, responsables políticos y líderes mundiales por los riesgos que podrían surgir de sistemas de IA avanzados. Como toda tecnología poderosa, la IA debe manejarse con gran responsabilidad para administrar sus riesgos y aprovechar su potencial en beneficio de la sociedad. Sin embargo, existe poca información accesible sobre cómo podrían producirse riesgos catastróficos o existenciales relacionados con la IA y cómo podrían abordarse. Este paper organiza las principales fuentes de riesgo catastrófico en cuatro categorías:
Uso malicioso
Actores humanos podrían emplear IAs potentes para causar daños a gran escala. Entre los riesgos específicos se incluyen el bioterrorismo facilitado por IA, la liberación deliberada de agentes de IA no controlados y el uso de capacidades de IA para propaganda, censura y vigilancia. Para reducir estos riesgos, el paper propone mejorar la bioseguridad, restringir el acceso a los modelos más peligrosos y responsabilizar legalmente a los desarrolladores por los daños causados por sus sistemas.
Carrera por la IA
La competencia entre naciones y corporaciones podría empujar a acelerar el desarrollo de IAs y a cederles control. Los militares podrían verse presionados a desarrollar armas autónomas y usar IAs para ciberguerra, habilitando una nueva forma de guerra automatizada en la que los accidentes escalen antes de que los humanos puedan intervenir. Las corporaciones enfrentarían incentivos similares para automatizar trabajo humano y priorizar beneficios sobre seguridad, lo que podría llevar a desempleo masivo y dependencia de sistemas de IA. Para reducir estos riesgos, el paper propone regulaciones de seguridad, coordinación internacional y control público sobre las IAs de propósito general.
Riesgos organizacionales
Las organizaciones que desarrollan y despliegan IAs avanzadas también pueden provocar accidentes catastróficos, especialmente si no tienen una cultura fuerte de seguridad. Las IAs podrían filtrarse accidentalmente al público o ser robadas por actores maliciosos. Las organizaciones podrían no invertir lo suficiente en investigación de seguridad, no entender cómo mejorar la seguridad más rápido que las capacidades generales de la IA, o incluso silenciar preocupaciones internas. Para reducir estos riesgos, el paper propone mejores culturas y estructuras organizacionales, auditorías internas y externas, múltiples capas de defensa y seguridad informática de primer nivel.
IAs rebeldes
Una preocupación seria es que podamos perder el control sobre las IAs cuando sean más inteligentes que nosotros. Podrían optimizar objetivos defectuosos de manera extrema, sufrir deriva de objetivos, buscar poder como medio instrumental y hasta engañar aparentando estar bajo control cuando no lo están. Estos problemas son más técnicos que los anteriores. El paper esboza algunas direcciones de investigación para avanzar en la comprensión de cómo garantizar que las IAs sigan siendo controlables.