¿Debería confiar en un detector de IA?

30 de marzo de 2024

La IA generativa se está convirtiendo en la colchoneta de más contenido, lo que hace que muchos cuestionen la confiabilidad de su detector de IA.

En respuesta, se han realizado varios estudios sobre la operatividad de las herramientas de detección de IA para discernir entre contenido humano y contenido generado por IA.

Desglosaremos estos estudios para ayudarle a instruirse más sobre cómo funcionan los detectores de IA, le mostraremos un ejemplo de detectores de IA en argumento y le ayudaremos a lanzarse si puede abandonarse en las herramientas o en los estudios.

¿Están sesgados los detectores de IA?

Los investigadores descubrieron que los detectores de contenido de IA (aquellos destinados a detectar contenido generado por GPT) podrían tener un sesgo significativo contra los escritores no nativos en inglés.

El estudio encontró que estos detectores, diseñados para diferenciar entre IA y contenido generado por humanos, clasifican erróneamente constantemente muestras de escritura en inglés no nativo como generadas por IA, mientras identifican con precisión muestras de escritura en inglés nativo.

Utilizando muestras de escritura de escritores ingleses nativos y no nativos, los investigadores descubrieron que los detectores clasificaron erróneamente más de la medio de estas últimas muestras como generadas por IA.

Curiosamente, el estudio asimismo reveló que estrategias de estímulo simples, como “Elevar el texto proporcionado empleando habla intelectual.”, podría mitigar este sesgo y evitar eficazmente los detectores GPT.

Captura de pantalla de Arxiv.org, julio de 2023

Los hallazgos sugieren que los detectores de GPT pueden penalizar involuntariamente a los escritores con expresiones lingüísticas restringidas, lo que subraya la falta de centrarse más en la equidad y solidez de estas herramientas.

Esto podría tener implicaciones significativas, particularmente en entornos evaluativos o educativos, donde los hablantes no nativos de inglés pueden ser penalizados o excluidos inadvertidamente del discurso integral. De lo contrario, conduciría a “consecuencias injustas y al aventura de exacerbar los prejuicios existentes”.

Los investigadores asimismo destacan la falta de seguir investigando para chocar estos sesgos y perfeccionar los métodos de detección actuales para certificar un panorama digital más equitativo y seguro para todos los usuarios.

¿Puedes vencer a un detector de IA?

En un estudio separado sobre texto generado por IA, los investigadores documentan la optimización de ejemplos en contexto (SICO) basada en sustitución, lo que permite que los modelos de habla grandes (LLM) como ChatGPT evadan la detección de los detectores de texto generados por IA.

El estudio utilizó tres tareas para afectar escenarios de uso de la vida existente de LLM donde la detección de texto generado por IA es crucial, incluidos ensayos académicos, preguntas y respuestas abiertas y reseñas de negocios.

Además implicó probar SICO con seis detectores representativos (incluidos modelos basados en entrenamiento, métodos estadísticos y API) que superaron consistentemente a otros métodos en todos los detectores y conjuntos de datos.

Los investigadores descubrieron que SICO fue eficaz en todos los escenarios de uso probados. En muchos casos, el texto generado por SICO era indistinguible del texto escrito por humanos.

Sin retención, asimismo destacaron el potencial mal uso de esta tecnología. Conveniente a que SICO puede ayudar a que el texto generado por IA evada la detección, los actores difamados asimismo podrían usarlo para crear información engañosa o falsa que parezca escrita por humanos.

LEER Cómo iniciar y gestionar una agencia de marketing de IA en 2024

Entreambos estudios señalan el ritmo al que el exposición de la IA generativa supera al de los detectores de texto con IA, y el segundo enfatiza la falta de una tecnología de detección más sofisticada.

Esos investigadores sugieren que la integración de SICO durante la etapa de entrenamiento de los detectores de IA podría mejorar su solidez y que el concepto central de SICO podría aplicarse a diversas tareas de coexistentes de texto, abriendo nuevas vías para futuras investigaciones en coexistentes de texto y formación en contexto.

¿Se inclinan los detectores de IA en torno a la clasificación humana?

Los investigadores de un tercer estudio recopilaron estudios previos sobre la confiabilidad de los detectores de IA, seguidos de sus datos, y publicaron varios hallazgos sobre estas herramientas.

Aydin y Karaarslan (2022) revelaron que iThenticate, una popular utensilio de detección de plagio, encontró altas tasas de coincidencia con texto parafraseado por ChatGPT.
Wang y cols. (2023) descubrieron que es más difícil detectar código generado por IA que contenido en habla natural. Adicionalmente, algunas herramientas mostraron sesgos, inclinándose a identificar texto como generado por IA o escrito por humanos.
Pegoraro et al. (2023) descubrieron que detectar texto generado por ChatGPT es un gran desafío, y la utensilio más eficaz logra una tasa de éxito de menos del 50%.
Van Oijen (2023) reveló que la precisión universal de las herramientas en la detección de texto generado por IA era solo de aproximadamente del 28 %, y la mejor utensilio alcanzaba solo el 50 % de precisión. Por el contrario, estas herramientas fueron más efectivas (aproximadamente del 83% de precisión) en la detección de contenido escrito por humanos.
Anderson y cols. (2023) observaron que revelar reducía notablemente la operatividad del detector de salida GPT-2.

Utilizando 14 herramientas de detección de texto generadas por IA, los investigadores crearon varias docenas de casos de prueba en diferentes categorías, que incluyen:

Texto escrito por humanos.
Texto traducido.
Texto generado por IA.
Texto generado por IA con ediciones humanas.
Texto generado por IA con paráfrasis de IA.

Estas pruebas se evaluaron utilizando lo próximo:

Captura de pantalla de Arxiv.org, julio de 2023

Turnitin surgió como la utensilio más precisa en todos los enfoques, seguida de Compilatio y GPT-2 Output Detector.

Sin retención, la mayoría de las herramientas probadas mostraron un sesgo en torno a la clasificación precisa del texto escrito por humanos, en comparación con el texto generado o modificado por IA.

Si correctamente ese resultado es deseable en contextos académicos, el estudio y otros resaltaron el aventura de acusaciones falsas y casos no detectados. Los falsos positivos fueron mínimos en la mayoría de las herramientas, excepto en GPT Zero, que mostró una tasa adhesión.

Los casos no detectados eran motivo de preocupación, en particular en el caso de los textos generados por IA que se sometían a tirada humana o paráfrasis cibernética. La mayoría de las herramientas tuvieron dificultades para detectar dicho contenido, lo que representa una amenaza potencial a la integridad académica y la equidad entre los estudiantes.

La evaluación asimismo reveló dificultades técnicas con las herramientas.

LEER Innovaciones ilimitadas versus 2500 piscinas: la IA enfrenta una reacción ambiental similar a la minería de Bitcoin

Algunos experimentaron errores en el servidor o tuvieron limitaciones para aceptar ciertos tipos de entrada, como código de computadora. Otros encontraron problemas de cálculo y el manejo de los resultados en algunas herramientas resultó un desafío.

Los investigadores sugirieron que chocar estas limitaciones será crucial para implementar eficazmente herramientas de detección de texto generadas por IA en entornos educativos, garantizando una detección precisa de malas conductas y minimizando las acusaciones falsas y los casos no detectados.

¿Qué tan precisos son estos estudios?

¿Debería abandonarse en las herramientas de detección de IA basadas en los resultados de estos estudios?

La pregunta más importante podría ser si se debe abandonarse en estos estudios sobre herramientas de detección de IA.

Envié el tercer estudio mencionado anteriormente a Jonathan Gillham, fundador de Originality.ai. Hizo algunos comentarios muy detallados y reveladores.

Para originarse, Originality.ai no estaba destinado al sector educativo. Es posible que otros detectores de IA probados siquiera hayan sido creados para ese entorno.

El requisito para su uso adentro del ámbito universitario es que produzca una respuesta ejecutable. Esto es parte de la razón por la que comunicamos explícitamente (en la parte superior de nuestra página de inicio) que nuestra utensilio es para marketing digital y NO para el mundo universitario.

La capacidad de evaluar múltiples artículos enviados por el mismo escritor (no un estudiante) y tomar una valor informada es un caso de uso mucho mejor que tomar decisiones consecuentes sobre un solo trabajo presentado por un estudiante.

La definición de contenido generado por IA puede variar entre lo que indica el estudio y lo que identifica cada utensilio de detección de IA. Gillham incluyó lo próximo como narración a varios significados de IA y contenido generado por humanos.

Generado por IA y no editado = texto generado por IA.
Generado por IA y editado por humanos = texto generado por IA.
Esquema de IA, escrito por humanos y editado en gran medida por IA = texto generado por IA.
Investigación de IA y escritura humana = Llamativo generada por humanos.
Escrito por humanos y editado con Grammarly = Llamativo generado por humanos.
Escrita por humanos y editada por humanos = Llamativo generada por humanos.

Algunas categorías del estudio probaron el texto traducido por IA, esperando que fuera clasificado como humano. Por ejemplo, en la página 10 del estudio, dice:

Para la segunda categoría (citación 02-MT), se escribieron aproximadamente de 10.000 caracteres (espacios incluidos) en bosnio, checo, tudesco, letón, eslovaco, castellano y sueco. Es posible que nadie de estos textos haya estado expuesto a Internet antiguamente, como ocurre con 01-Hum. Dependiendo del idioma, se utilizó la utensilio de traducción AI DeepL (3 casos) o Google Translate (6 casos) para producir los documentos de prueba en inglés.

Durante el período de experimentación de dos meses, algunas herramientas habrían conseguido enormes avances. Gillham incluyó una representación gráfica de las mejoras adentro de los dos meses posteriores a las actualizaciones de la traducción.

Captura de pantalla de Originality.ai, julio de 2023

Los problemas adicionales con el disección del estudio que Gillham identificó incluyeron un tamaño de muestra pequeño (54), respuestas clasificadas incorrectamente y la inclusión de solo dos herramientas pagas.

LEER La empresa de criptochips Katena sale victoriosa de la batalla legal contra el minero de Bitcoin Coinmint

Los datos y los materiales de prueba deberían acaecer estado disponibles en la URL incluida al final del estudio. Una solicitud de datos realizada durante dos semanas sigue sin respuesta.

Lo que los expertos en IA dijeron sobre las herramientas de detección de IA

Pregunté a la comunidad HARO para entender qué tenían que asegurar otros sobre su experiencia con los detectores de IA, lo que me llevó a realizar un estudio propio sin querer.

En un momento, recibí cinco respuestas en dos minutos que eran respuestas duplicadas de diferentes fuentes, lo que parecía sospechoso.

Decidí utilizar Originality.ai en todas las respuestas de HARO que recibí para esta consulta. Según mi experiencia personal y pruebas no científicas, esta utensilio en particular parecía difícil de exceder.

Captura de pantalla de Originality.ai, julio de 2023

Originality.ai detectó, con 100% de confianza, que la mayoría de estas respuestas fueron generadas por IA.

Las únicas respuestas de HARO que llegaron principalmente generadas por humanos fueron introducciones de una o dos oraciones a fuentes potenciales que podría estar interesado en interviuvar.

Esos resultados no fueron una sorpresa porque existen extensiones de Chrome para ChatGPT para escribir respuestas HARO.

Captura de pantalla de Reddit, julio de 2023

Lo que la FTC dijo sobre las herramientas de detección de IA

La Comisión Federal de Comercio advirtió a las empresas que no exageren las capacidades de las herramientas de inteligencia industrial para detectar contenido generado, advirtiendo que afirmaciones de marketing inexactas podrían violar las leyes de protección al consumidor.

Además se recomendó a los consumidores que fueran escépticos delante las afirmaciones de que las herramientas de detección de IA pueden identificar de forma fiable todo el contenido industrial, ya que la tecnología tiene limitaciones.

La FTC dijo que se necesita una evaluación sólida para fundamentar las afirmaciones de marketing sobre las herramientas de detección de IA.

¿Se utilizó la IA para redactar la Constitución?

Las herramientas de detección de IA aparecieron en los titulares cuando los usuarios descubrieron que existía la posibilidad de que la IA escribiera la Constitución de los Estados Unidos.

Captura de pantalla de Originality.ai, julio de 2023

Una publicación en Ars Technica explicó por qué las herramientas de detección de escritura de IA a menudo identifican falsamente textos como la Constitución de los EE. UU. como generados por IA.

Captura de pantalla de ZeroGPT, julio de 2023

El habla histórico y formal a menudo otorga puntuaciones bajas de “perplejidad” y “crisis”, que interpretan como indicadores de escritura de IA.

Captura de pantalla de GPTZero, julio de 2023

Los escritores humanos pueden utilizar frases comunes y estilos formales, lo que da como resultado puntuaciones similares.

Este prueba demostró aún más el punto de presencia de la FTC de que los consumidores deberían ser escépticos con respecto a las puntuaciones de los detectores de IA.

Fortalezas y limitaciones

Los hallazgos de varios estudios resaltan las fortalezas y limitaciones de las herramientas de detección de IA.

Si correctamente los detectores de IA han mostrado cierta precisión en la detección de texto generado por IA, asimismo han mostrado sesgos, problemas de usabilidad y vulnerabilidades a las técnicas de distracción.

Pero los estudios en sí podrían tener fallas, dejando todo campechano a la especulación.

Se necesitan mejoras para chocar los sesgos, mejorar la solidez y certificar una detección precisa en diferentes contextos.

La investigación y el exposición continuos son cruciales para fomentar la confianza en los detectores de IA y crear un panorama digital más equitativo y seguro.

Imagen de portada: Ascannio/Shutterstock

Artículo anterior

¿Los imanes afectan las tarjetas de crédito?

Artículo siguiente

¡He aquí por qué empezaría a comprar acciones con £ 350 extra esta Pascua!

ARTÍCULOS RELACIONADOS

DEJA UNA RESPUESTA Cancelar respuesta

Por favor ingrese su comentario!

Por favor ingrese su nombre aquí

¡Has introducido una dirección de correo electrónico incorrecta!

Por favor ingrese su dirección de correo electrónico aquí

¿Debería confiar en un detector de IA?

¿Están sesgados los detectores de IA?

¿Puedes vencer a un detector de IA?

¿Se inclinan los detectores de IA en torno a la clasificación humana?

¿Qué tan precisos son estos estudios?

Lo que los expertos en IA dijeron sobre las herramientas de detección de IA

Lo que la FTC dijo sobre las herramientas de detección de IA

¿Se utilizó la IA para redactar la Constitución?

Fortalezas y limitaciones

Cómo mejorar el ranking de Google con información real sobre la...

Precios de las agencias de marketing de contenidos: desglose hasta 2024

Lo que necesitas para generar leads con contenido

DEJA UNA RESPUESTA Cancelar respuesta

Más popular

10 ideas únicas de tiendas en Etsy para ganar...

Promocione sus aplicaciones con contenido de video de la...

Su actividad en bicicleta de helados se convirtió en...

Dos ETF preparados para aprovechar las olas de los...

He aquí por qué es importante llevar consigo su...

Una señal bajista parpadea para las acciones más calientes...

Las elevadas tarifas de Bitcoin y los erráticos ingresos...

Selecciones del editor

Tipos de préstamos comerciales para mal crédito

Comprensión de las tasas de interés de los bonos del Tesoro

25 cosas que los boomers hicieron mal en la planificación de...

Noticias populares

Mi predicción del precio de las acciones de JD Sports Fashion...

Jack Dorsey proporciona a Core Scientific un nuevo chip ASIC para...

El euro (EUR/USD) en vilo tras el inesperado resultado de las...

Etiquetas

Etiquetas

Sobre nosotros

SÍGUENOS