A medida que la herramienta de búsqueda de inteligencia artificial enfrenta críticas por supuestamente plagiar trabajos periodísticos y distribuirlos como una empresa de medios, cada vez más confía en blogs generados por IA y publicaciones en LinkedIn plagadas de información inexacta y desactualizada.
El motor de búsqueda de IA Perplexity afirma ser diferente de otras herramientas generativas de IA como ChatGPT. En lugar de regurgitar datos sin incluir fuentes, marca sus resúmenes cortos sobre cualquier tema que desees con notas al pie que se supone enlazan con fuentes recientes y confiables de información en tiempo real extraída de Internet. “Las citas son nuestra moneda”, dijo el CEO Aravind Srinivas a Forbes en abril.
Pero incluso cuando la startup ha sido criticada por republicar el trabajo de periodistas sin la debida atribución, Forbes ha descubierto que Perplexity también cita como fuentes autorizadas blogs generados por IA que contienen información inexacta, desactualizada y a veces contradictoria.
Lee también: Globant Chile: “Notamos mucho interés en inteligencia artificial y gestión de datos”
Según un estudio realizado por la plataforma de detección de contenido de IA GPTZero, el motor de búsqueda de Perplexity extrae información y cita publicaciones generadas por IA sobre una amplia variedad de temas, incluidos viajes, deportes, comida, tecnología y política. El estudio determinó si una fuente era generada por IA ejecutándola a través del software de detección de IA de GPTZero, que proporciona una estimación de la probabilidad de que un escrito haya sido redactado con IA con una precisión del 97 %; para el estudio, las fuentes solo se consideraron generadas por IA si GPTZero determinó con al menos un 95 % de certeza que fueron escritas con IA (Forbes las pasó por una herramienta adicional de detección de IA llamada DetectGPT, que tiene una precisión del 99 % para confirmar la evaluación de GPTZero).
En promedio, los usuarios de Perplexity solo necesitan ingresar tres indicaciones antes de encontrarse con una fuente generada por IA, según el estudio, en el que se probaron más de 100 indicaciones.
“Perplexity es tan buena como sus fuentes”, dijo el CEO de GPTZero, Edward Tian. “Si las fuentes son alucinaciones de IA, entonces la salida también lo es”.
Búsquedas como “festivales culturales en Kioto, Japón”, “impacto de la IA en la industria de la salud”, “comida callejera imperdible en Bangkok, Tailandia” y “prometedores jóvenes tenistas a seguir”, devolvieron respuestas que citaban materiales generados por IA. En un ejemplo, una búsqueda de “festival cultural en Kioto, Japón” en Perplexity arrojó un resumen en el que la única referencia era una publicación generada por IA en LinkedIn. En otra búsqueda relacionada con viajes sobre los mercados flotantes de Vietnam, la respuesta de Perplexity, que citaba un blog generado por IA, incluía información desactualizada, según encontró el estudio.
“Perplexity es tan buena como sus fuentes. Si las fuentes son alucinaciones de IA, entonces la salida también lo es.”Edward Tian, cofundador y CEO de GPTZero
El sirector de Negocios de Perplexity, Dmitri Shevelenko, dijo en una declaración por correo electrónico a Forbes que su sistema “no es perfecto” y que mejora continuamente su motor de búsqueda refinando los procesos que identifican fuentes relevantes y de alta calidad. Perplexity clasifica las fuentes como autoritativas asignando “puntuaciones de confianza” a diferentes dominios y su contenido. Sus algoritmos bajan de rango y excluyen sitios web que contienen grandes cantidades de spam, dijo. Por ejemplo, las publicaciones de Microsoft y Databricks se priorizan en los resultados de búsqueda sobre otras, dijo Shevelenko.
“Como parte de este proceso, hemos desarrollado nuestros propios algoritmos internos para detectar si el contenido es generado por IA. Al igual que con otros detectores, estos sistemas no son perfectos y necesitan ser refinados continuamente, especialmente a medida que el contenido generado por IA se vuelve más sofisticado”, dijo.
A medida que el contenido generado por IA satura la red, se vuelve más difícil distinguir entre contenido auténtico y falso. Y cada vez más estas publicaciones sintéticas se filtran en los productos que dependen de fuentes web, trayendo consigo las inconsistencias o inexactitudes que contienen, lo que resulta en “alucinaciones de segunda mano”, dijo Tian.
“No se necesita el 50 % de Internet siendo IA para comenzar a crear esta cámara de eco de IA”, dijo a Forbes.
En múltiples escenarios, Perplexity se basó en blogs generados por IA, entre otras fuentes aparentemente auténticas, para proporcionar información sobre salud. Por ejemplo, cuando se pidió a Perplexity que proporcionara “algunas alternativas a la penicilina para tratar infecciones bacterianas”, citó directamente un blog generado por IA de una clínica médica que se llama Penn Medicine Becker ENT & Allergy. (Según GPTZero, hay un 100 % de probabilidad de que el blog sea generado por IA. DetectGPT dijo que hay un 94 % de probabilidad de que sea falso).
Tales fuentes de datos están lejos de ser confiables porque a veces ofrecen información contradictoria. El blog generado por IA menciona que los antibióticos como las cefalosporinas pueden ser utilizados como alternativa a la penicilina para aquellos que son alérgicos a ella, pero unas pocas frases después el post se contradice diciendo que “aquellos con alergia a la penicilina deben evitar las cefalosporinas”. Tales contradicciones también se reflejaron en las respuestas generadas por el sistema de IA de Perplexity, dijo Tian. Sin embargo, el chatbot sugirió consultar a un especialista para la alternativa de antibiótico más segura.
Los representantes de servicio al cliente de Penn Medicine Becker ENT & Allergy redirigieron a Forbes a Penn Medicine. Pero en respuesta a las preguntas de Forbes sobre por qué la clínica estaba utilizando IA para generar blogs que daban consejos médicos, la portavoz de Penn Medicine, Holly Auer, dijo que el sitio web del médico especialista no era administrado por Penn Medicine y que “la precisión y la integridad editorial son estándares clave para todo el contenido web asociado con nuestra marca, y investigaremos este contenido y tomaremos medidas según sea necesario”. No está claro quién administra el sitio web.
Shevelenko dijo que los ejemplos del estudio no proporcionan “una evaluación integral” de las fuentes citadas por Perplexity, pero se negó a compartir datos sobre los tipos de fuentes que cita el sistema.
“La realidad es que depende mucho de los tipos de consultas que hacen los usuarios y su ubicación”, dijo. “Alguien en Japón que pregunta sobre el mejor televisor para comprar obtendrá un conjunto de fuentes muy diferente de alguien en los EE. UU. que pregunta sobre qué zapatos para correr comprar”.
Perplexity también ha tenido tropiezos en su manejo de fuentes autorizadas de información. La startup de mil millones de dólares recientemente fue objeto de escrutinio por acusaciones de plagiar trabajos periodísticos de múltiples medios de comunicación, incluidos Forbes, CNBC y Bloomberg. A principios de este mes, Forbes descubrió que Perplexity había copiado oraciones, detalles cruciales y arte personalizado de una historia exclusiva de Forbes sobre el proyecto secreto de drones de IA de Eric Schmidt sin la debida atribución. La empresa recreó la historia de Forbes en múltiples medios, en un artículo, podcast y video de YouTube, y la distribuyó agresivamente a sus usuarios con una notificación directa.
“Perplexity representa el punto de inflexión que ahora enfrenta nuestro progreso de IA… en manos de personas como Srinivas, que tiene la reputación de ser excelente en el aspecto técnico de doctorado y menos en el aspecto humano básico, la amoralidad plantea un riesgo existencial”, escribió Randall Lane, Director de Contenidos de Forbes. Forbes envió una carta de cese y desistimiento a Perplexity, acusando a la startup de infracción de derechos de autor. En respuesta, el CEO de Perplexity, Srinivas, negó las acusaciones, argumentando que los hechos no pueden ser plagiados, y dijo que la compañía no ha “reescrito”, “redistribuido”, “republicado” ni utilizado de manera inapropiada el contenido de Forbes.
El estudio de GPTZero señaló que una búsqueda en Perplexity de “drones de combate de IA de Eric Schmidt”, uno de los temas de búsqueda “pre-recomendados” que se encuentran en la página de inicio de Perplexity, también utilizó un blog escrito con IA como una de sus fuentes. (GPTZero encontró que había un 98 % de probabilidad de que el blog fuera generado por IA, mientras que DetectGPT dijo que tenía un 99 % de confianza).
“Cuando usas tales referencias, es mucho más fácil promover la desinformación, incluso si no hay intención de hacerlo”.Zak Shumaylov, investigador de aprendizaje automático en la Universidad de Cambridge.
Una investigación de Wired encontró que a través de una dirección IP secreta, la startup también había accedido y raspado trabajos de Wired y otras publicaciones propiedad de la empresa de medios Condé Nast, a pesar de que sus ingenieros habían intentado bloquear el rastreador web de Perplexity para evitar el robo de contenido. Aun así, el motor de búsqueda tiende a inventar información inexacta y atribuir citas falsas a personas reales. Srinivas no respondió a las afirmaciones de la historia de Wired, pero dijo: “Las preguntas de Wired reflejan un profundo y fundamental malentendido de cómo funcionan Perplexity y la Internet”.
Shevelenko dijo que la empresa se da cuenta del papel crucial que tienen los editores en la creación de un ecosistema de información saludable del que depende su producto. Con ese fin, Perplexity ha creado lo que afirma es un programa de reparto de ingresos “el primero de su tipo” que compensará a los editores en una capacidad limitada. Planea agregar una capa de publicidad en su plataforma que permitirá a las marcas patrocinar preguntas de seguimiento o “relacionadas” en sus productos de búsqueda y páginas. Para respuestas específicas generadas por su IA en las que Perplexity obtenga ingresos, los editores que sean citados como fuente en esa respuesta recibirán una parte. La empresa no compartió qué porcentaje de ingresos planea compartir. Ha estado en conversaciones con The Atlantic, entre otros editores, sobre posibles asociaciones.
Srinivas, quien fue investigador en OpenAI antes de comenzar Perplexity en 2022, ha recaudado más de $170 millones en fondos de capital de riesgo (según Pitchbook). Los patrocinadores de la compañía incluyen algunos de los nombres más destacados en tecnología, incluidos el fundador de Amazon, Jeff Bezos, el Científico Jefe de Google, Jeff Dean, la ex CEO de YouTube, Susan Wojcicki, el cofundador de OpenAI, Andrej Karpathy y el Científico Jefe de Meta, Yann LeCun. En los últimos meses, su chatbot de búsqueda conversacional ha explotado en popularidad, con 15 millones de usuarios que incluyen multimillonarios como el CEO de Nvidia, Jensen Huang y el fundador y CEO de Dell, Michael Dell.
Perplexity utiliza un proceso llamado “RAG” o generación aumentada por recuperación, que permite a un sistema de IA recuperar información en tiempo real de fuentes de datos externas para mejorar las respuestas de su chatbot. Pero una degradación en la calidad de estas fuentes podría tener un impacto directo en las respuestas que produce su IA, dicen los expertos.
Zak Shumaylov, un investigador de aprendizaje automático en la Universidad de Cambridge, dijo que si las fuentes en tiempo real contienen sesgos o inexactitudes, cualquier aplicación construida sobre tales datos podría eventualmente experimentar un fenómeno llamado colapso del modelo, donde un modelo de IA entrenado con datos generados por IA comienza a “esparcir tonterías porque ya no hay información, solo hay sesgo”.
“Cuando usas tales referencias, es mucho más fácil promover la desinformación, incluso si no hay intención de hacerlo”, dijo.
Confiar en fuentes web de baja calidad es un desafío generalizado para las empresas de IA, muchas de las cuales no citan fuentes en absoluto. En mayo, los “resúmenes de IA” de Google, una función que utiliza IA para generar vistas previas sobre un tema, produjeron una serie de respuestas engañosas como sugerir añadir pegamento para pegar el queso en la pizza y afirmar que comer rocas puede ser bueno para la salud. Parte del problema era que el sistema parecía estar extrayendo de fuentes no verificadas como foros de discusión en Reddit y sitios satíricos como The Onion. Liz Reid, jefa de Google Search, admitió en un blog que algunos resultados erróneos aparecieron en Google en parte debido a la falta de información de calidad sobre ciertos temas.
“Perplexity es solo un caso”, dijo Tian. “Es un síntoma, no todo el problema”.
Este artículo fue publicado originalmente en Forbes US
