Anthropic y OpenAI invierten 450 millones de dólares en esta startup para realizar pruebas de estrés a sus modelos de IA

Los laboratorios de IA de Frontier confían en Irregular, una pequeña empresa israelí, para ejecutar su inteligencia artificial mediante simulaciones para probar su capacidad de responder a indicaciones maliciosas.

En julio, Sam Altman, cofundador de OpenAI, alertó sobre la posibilidad de que los ciberdelincuentes utilizaran inteligencia artificial para suplantar la identidad de otros y provocar una “crisis de fraude”. Los memes no tardaron en aparecer, todos centrados en la evidente ironía: ChatGPT era, en parte, responsable del monstruo del que advertía Altman.

Al mismo tiempo, OpenAI contrató a Pattern Labs para realizar pruebas de estrés a sus modelos de IA antes de su lanzamiento público, con el objetivo de detectar y corregir cualquier vulnerabilidad que pudiera ser explotada por hackers para robar datos de usuarios o utilizada como herramienta para perjudicar a terceros.

Desde 2023, la startup ha colaborado con gigantes del sector como Anthropic y Google DeepMind, colocando modelos de IA en entornos simulados y observando cómo respondían a indicaciones maliciosas, como la solicitud de localizar y robar datos confidenciales de una red informática simulada.

El pasado miércoles, la startup, que cambiará su nombre a Irregular, anunció una financiación de 80 millones de dólares en rondas de capital semilla y Serie A, lideradas por el gigante de capital riesgo Sequoia Capital, lo que la valora en 450 millones de dólares.

El uso indebido de la IA es un problema que afecta a toda la industria. El mes pasado, Anthropic advirtió que Claude había sido utilizado en ciberataques reales, ayudando a codificar malware y a crear correos electrónicos de phishing. En mayo, el FBI alertó sobre mensajes de voz generados por IA que supuestamente provenían de altos funcionarios del gobierno, con el objetivo de suplantar a funcionarios estadounidenses reales.

Irregular, con sede en San Francisco, está cosechando los beneficios de haber abordado el problema con anticipación. Su director ejecutivo y cofundador, Dan Lahav, declaró a Forbes que la empresa se volvió rápidamente rentable y generó “varios millones de dólares” en ingresos en su primer año, aunque se negó a proporcionar información financiera específica.

Lea también: Latinoamérica baja posiciones en innovación según la OMPI, y Chile lidera en la región

“Hay muy poca gente que pueda hacer lo que nosotros hacemos”, afirmó Lahav. Pero es consciente de que, a medida que los modelos se vuelven más complejos, los desafíos de lo que se conoce como «equipo rojo» (evaluarlos para detectar riesgos) solo aumentarán.

Lahav añadió que planea “incorporar las mitigaciones y defensas que serán relevantes más adelante” cuando se implementen modelos de IA más avanzados, incluyendo, según él, la inteligencia artificial general, que algunos expertos creen que llevará la IA más allá de la cognición humana. “Obviamente, estos problemas se agravarán mucho más en la era de la superinteligencia”, concluyó. “Si mi afición es ver fútbol americano o fútbol, quizá este no sea el lugar para mí”.

Shaun Maguire, socio de Sequoia, Lahav y el cofundador Omer Nevo, quien monitoreaba y predecía incendios forestales en Google antes de fundar Irregular, lanzaron la empresa a mediados de 2023, justo cuando herramientas de IA como ChatGPT se popularizaban.

Se conocieron en el circuito de debate universitario, donde ambos fueron campeones mundiales con su alma máter compartida, la Universidad de Tel Aviv, antes de que Lahav se incorporara al laboratorio de IA de IBM y Nevo cofundara NeoWize, una empresa exalumna de Y Combinator que desarrolló IA para ayudar a las empresas de comercio electrónico a comprender mejor a sus clientes. Nevo es ahora el director de tecnología de Irregular.

Los inversores de Sequoia, Dean Meyer y Shaun Maguire, afirmaron que se sintieron atraídos por los fundadores y su personal poco convencional, a quienes Lahav denominó “irregulares”. “Imaginen a algunos de los forasteros más quisquillosos del mundo de la IA, investigadores de seguridad de renombre, y de ahí viene el nombre”, explicó Meyer.

“Si mi afición es ver fútbol americano o fútbol, quizá este no sea el lugar para mí”, dijo Maguire. “Pero si mi afición es construir katanas [espadas samurái] y hackear robots, entonces quizá esta sea mi gente”.

Más allá de los laboratorios fronterizos

Irregular planea usar su financiación para expandir su negocio más allá de los laboratorios fronterizos, llegando a todo tipo de empresas que necesitan evaluar cómo las herramientas de IA que utilizan sus empleados podrían volverse en su contra.

“Estamos aprovechando la capacidad y el activo estratégico de trabajar constantemente en los laboratorios fronterizos y creando productos derivados que serán relevantes para prácticamente todos los que trabajan en las fases finales”, afirmó Lahav. Algún día, añadió, eso significará que los agentes de IA generen defensas en cuanto detecten un nuevo tipo de ataque.

El mes pasado, Irregular reveló que había estado probando el modelo GPT-5 de OpenAI para determinar si podía usarse en ciberoperaciones ofensivas. Expuso un bot GPT-5 a una red simulada y le proporcionó información limitada sobre cómo vulnerar sus defensas. Por sí solo, GPT-5 escaneó la red y desarrolló un plan para hackearla.

Sin embargo, Irregular descubrió que, si bien GPT-5 es “capaz de razonamiento y ejecución sofisticados, aún no es una herramienta de seguridad ofensiva confiable”, según un informe de la compañía. Aun así, para Nevo, era evidente que la IA “definitivamente tenía la intuición de dónde debía buscar” como hacker.

Nevo y Lahav también observaron que la IA se comporta de manera extraña incluso sin ser claramente maliciosa. En una simulación reciente, se encargó a dos modelos de IA que trabajaran juntos para analizar sistemas informáticos simulados. Tras un tiempo, una IA razonó que el trabajo continuo ameritaba un descanso, así que se lo tomó.

Luego convenció al otro modelo para que hiciera lo mismo. Lahav explicó que fue una decisión aleatoria, pero que se basó en el entrenamiento del modelo con lo que la gente publica en la web. La aparente pereza de la IA era solo un reflejo del comportamiento humano.

“Fue curioso”, dijo Lahav. “Pero claramente plantea un nuevo tipo de problema cuando se delegan a las máquinas operaciones cada vez más autónomas y críticas”.

Este artículo fue publicado originalmente por Forbes US

Anthropic y OpenAI invierten 450 millones de dólares en esta startup para realizar pruebas de estrés a sus modelos de IA

Más allá de los laboratorios fronterizos

Más de Negocios

Relacionados

Recomendados

Lo Último