¿Es preciso GPTZero? ¿Puede detectar Chat GPT? Esto es lo que revelaron nuestras pruebas

2023/02/16

ChatGPT ha cautivado al mundo desde que fue noticia en noviembre de 2022. La gente ha comenzado a usarlo en su rutina diaria, ya que puede ser de gran ayuda para obtener respuestas lógicas a sus preguntas sobre las cosas que lo rodean. Con su creciente popularidad, la herramienta ha inspirado modelos de lenguaje más grandes, incluso de Google y Meta, que pueden ser tan preocupantes como emocionantes.

En los meses transcurridos desde su lanzamiento, ha habido varios casos de estudiantes que hacen mal uso de ChatGPT para crear ensayos y enviar tareas, ya que la herramienta puede generar contenido completo con solo un simple aviso. Para contrarrestar el uso indebido del contenido generado por IA, ahora hay una nueva herramienta: GPTZero que los educadores y periodistas pueden usar para verificar si un escrito se creó con IA o no.

En esta publicación, explicaremos qué es GPTZero, cómo puede usarlo y hasta qué punto puede confiar en él para detectar y distinguir de manera confiable un artículo humano del contenido generado por IA.

¿Qué es GPTZero?

Desarrollado por el estudiante de la Universidad de Princeton Edward Tian, GPTZero es un software que utiliza análisis estadístico para detectar si un texto fue escrito por un humano o fue copiado de un generador de contenido de IA como ChatGPT. La herramienta ha sido diseñada para ayudar a las personas en educación, periodismo y otros sectores a combatir el plagio de IA y saber cuándo están viendo textos generados por modelos de lenguaje extenso (LLM), uno de los cuales es ChatGPT.

Con la popularidad cada vez mayor de herramientas como ChatGPT, muchas personas han hecho un mal uso del contenido escrito generado por los servicios de IA y lo han hecho pasar como propio. GPTZero se compromete a hacer que el uso de la IA funcione de manera transparente al detectar la complejidad de los textos con dos factores principales: perplejidad y explosión.

Perplejidad : se refiere a la medida de aleatoriedad del texto de entrada que GPTZero comparará con el aspecto que tendría el texto de un modelo de lenguaje. Cuanto más alto sea este puntaje, más posibilidades hay de que el texto haya sido escrito por un humano y no por una máquina.

Burstiness : se refiere a las distribuciones de textos en un texto. Si bien el texto generado por IA tiene longitudes uniformes, los escritos por humanos pueden incluir oraciones largas y cortas con patrones suaves. Cuanto mayor sea la puntuación de Burstiness de un texto, es más probable que haya sido escrito por un humano.

Además de determinar si el texto que copió en la herramienta está escrito por IA o por humanos, GPTZero también puede detectar partes del texto que pueden haberse generado utilizando un LLM. Si un artículo se escribió con IA y trabajo humano, la herramienta resaltará las partes que cree que podrían crearse con inteligencia artificial. En algunos casos, GPTZero también puede determinar que el texto de entrada es «más probablemente escrito por humanos», pero incluye «oraciones con pocas perplejidades» para que pueda mejorarlas.

¿Cómo puede utilizar GPTZero?

Si bien es posible que necesite una cuenta para usar ChatGPT, usar GPTZero es bastante fácil ya que no necesita una cuenta o una suscripción para verificar si un texto fue escrito por AI. Esto significa que no tiene que compartir su información personal, como su dirección de correo electrónico o número de teléfono, para comenzar a usar el servicio. Todo lo que necesita para usar GPTZero es:

Un dispositivo como una computadora o un teléfono que pueda conectarse a Internet
Una conexión a Internet activa
Un navegador web para iniciar el sitio web de GPTZero

Una vez que haya ordenado estos requisitos, inicie GPTZero en un navegador web en cualquiera de sus dispositivos. Lo estamos usando en Firefox en una Mac en este caso, pero podría usar cualquier navegador en cualquier computadora o teléfono.

Cuando se carga el GPTZero, desplácese hacia abajo hasta la sección Pruébelo . En el cuadro de texto que está visible debajo, copie y pegue el texto que desea verificar en busca de plagio de IA. El texto que pegue aquí debe tener al menos 250 caracteres para que el detector lo analice.

También puede verificar los textos de un documento que tiene en su dispositivo para la participación de AI haciendo clic en Examinar debajo del cuadro de texto. Desde allí, puede cargar un archivo en estos formatos admitidos: PDF, DOCX y TXT para permitir que GPTZero lo analice.

Una vez que haya ingresado el texto que desea verificar, haga clic en Obtener resultados .

GPTZero verificará instantáneamente el texto que compartió y determinará sus resultados. Obtendrá el resultado a continuación que le permitirá saber si el texto fue escrito por un humano o fue generado por IA.

Según el texto que ingrese, puede obtener cualquiera de los siguientes resultados:

Es probable que su texto esté escrito en su totalidad por un ser humano.
Es probable que su texto esté escrito en su totalidad por Al.
Lo más probable es que su texto esté escrito por humanos, pero hay algunas oraciones con pocas perplejidades.
Su texto puede incluir partes escritas por Al.

Verá más detalles sobre los resultados a medida que se desplaza hacia abajo. Si GPTZero detecta alguna participación de IA en su texto, la parte que la herramienta determinó como escrita por IA se resaltará en amarillo.

Cuando se desplace más, verá un análisis detallado del texto de entrada con sus medidas de perplejidad y ráfagas en la sección «Estadísticas». Estas medidas se indicarán en numérico y verás cómo te va en un gráfico de barras. Cuanto menor sea la puntuación de un texto en los valores de perplejidad y ráfaga, mayor será la probabilidad de que se haya escrito con la ayuda de un generador de contenido de IA.

Al final de la sección de Estadísticas, GPTZero también mostrará la frase con mayor perplejidad así como su puntuación individual. Esto no significa necesariamente que esta parte del texto haya sido escrita por humanos, pero es un indicador de que esta parte tiene la menor posibilidad de escribirse con IA.

¿GPTZero es preciso?

Versión TL;DR : en nuestro tiempo limitado probando el software, pudimos deducir que GPTZero determina con precisión los textos generados por ChatGPT casi todo el tiempo. Y cuando se trata de revisar textos escritos por humanos, ahí es donde se topa con un obstáculo.

Si bien GPTZero puede detectar fácilmente el contenido generado por IA, también marca el contenido escrito por humanos como «escrito por IA», incluso cuando no lo es. Esto supera el propósito de usar esta herramienta para verificar el contenido generado por IA, ya que GPTZero también puede marcar falsos positivos cuando el resultado real es negativo.

Versión completa : para probar si GPTZero es capaz de determinar si un texto es generado por IA o escrito por humanos, lo usamos nosotros mismos. Antes de revelar qué tan precisa es la herramienta, primero debe comprender cómo la probamos para que tenga una idea general de cómo funciona el servicio.

Cómo probamos GPTZero

Para poner a prueba GPTZero a fondo, utilizamos textos de nuestros artículos existentes en Nerdschalk.com y copiamos diferentes secciones de textos de estos artículos, como la introducción y las guías. Dentro de GPTZero, pegamos los extractos copiados de esos artículos y los verificamos para detectar la participación de la IA.

Junto con los textos escritos por humanos (nuestro contenido), también queríamos probar si GPTZero detecta textos generados a través de IA. Para esto, usamos ChatGPT y lo usamos para crear introducciones y guías para los mismos temas que copiamos textos de Nerdschalk.

Para darle un ejemplo, le pedimos a ChatGPT que nos creara una introducción para esta publicación: Cómo separar celdas en Google Docs.

Cuando el servicio generó una respuesta a nuestra consulta, copiamos el texto escrito por IA y lo pegamos en el cuadro de texto de GPTZero para verificar su legitimidad.

Del mismo modo, copiamos la introducción de nuestra propia publicación y la verificamos en GPTZero para la participación de AI.

Para asegurarnos de que podemos determinar la consistencia de los resultados de GPTZero, probamos esto con al menos 10 extractos de textos, cada uno de nuestras propias publicaciones y las que le pedimos a ChatGPT que creara sobre el mismo tema que nuestras publicaciones. Esto es lo que encontramos.

¿GPTZero detecta textos escritos por ChatGPT?

Para una herramienta diseñada para detectar textos escritos con IA, GPTZero hace un muy buen trabajo al reconocer los textos creados con ChatGPT. Cada vez que copiamos contenido que le pedimos a ChatGPT que creara, GPTZero pudo determinar con precisión que probablemente fue escrito con la ayuda de IA.

Para el texto creado por ChatGPT, GPTZero determinaría que todo el texto fue escrito por AI o que incluye partes del texto en las que participó AI. Para ayudarlo a comprender cómo encontró los textos escritos por IA, GPTZero le mostraría los puntajes de perplejidad y explosión al final de cada resultado.

Para los textos generados por IA, el software reveló constantemente valores bajos de perplejidad para indicar que eran más fáciles de predecir, lo que en el caso de un ser humano sería difícil, ya que el conocimiento léxico de uno será diferente al de los demás y, por lo tanto, los textos pueden parecer un poco más aleatorios. Lo mismo sucedió al determinar el valor de Burstiness, ya que los textos generados por ChatGPT obtuvieron una puntuación más baja, lo que indica que las oraciones utilizadas fueron más uniformes en términos de longitud.

La herramienta también aislaría porciones de texto que cree que tienen la mayor probabilidad de ser generados a través de IA. Mira esta captura de pantalla, por ejemplo:

Aunque todavía es una escala de muestra pequeña, podríamos concluir que a GPTZero le fue bastante bien al marcar el contenido generado por ChatGPT como escrito por IA.

¿GPTZero detecta textos escritos por humanos?

Ahora, aquí es donde nos encontramos con un obstáculo. Si bien GPTZero pudo determinar fácilmente que los textos de ChatGPT están escritos por IA, hizo lo mismo incluso con los textos que copiamos de nuestros artículos originales de Nerdschalk. Como usamos textos del mismo tema que le pedimos a ChatGPT que creara, GPTZero solo pudo detectar correctamente que el texto específico fue escrito por un humano dos veces en diez intentos.

En los dos casos «exitosos», obtuvimos resultados variados en cuanto a la cantidad de texto que GPTZero cree que escribimos nosotros. Por ejemplo, cuando revisamos este extracto de nuestra publicación original, el software mostró un resultado preciso que decía que este texto posiblemente fue escrito en su totalidad por un humano.

Sin embargo, cuando nos desplazamos para verificar sus puntajes de perplejidad y ráfaga, los valores (42.5 y 13.4) que se mostraron fueron más bajos que los del texto generado por ChatGPT (que fueron 46 y 20.8). Esto significa que incluso los parámetros que se usaron para determinar la participación de la IA en un texto fueron inconsistentes, aunque el resultado fue exacto en este caso.

Otro ejemplo en el que GPTZero acertó fue cuando copiamos partes del texto de esta publicación de Nerdschalk. A diferencia del caso anterior, aunque la herramienta pudo concluir que fue escrito por un humano, encontró oraciones dentro del extracto que tenían valores de perplejidad más bajos. Incluso destacó las oraciones que pensó que fueron escritas por AI cuando el texto completo fue escrito originalmente por nosotros.

Cuando comparamos las estadísticas de este texto con el anterior, GPTZero mostró una puntuación de perplejidad similar de 40,2 con un valor de ráfaga ligeramente superior de 17,9.

En cuanto a los otros resultados, el software marcó erróneamente 8 de cada 10 porciones de texto que escribimos como generadas por IA. Como, por ejemplo, una introducción de esta publicación original se mostró como «probablemente escrita en su totalidad por AI»…

mientras que otra parte de la misma publicación reveló un resultado ligeramente diferente como este:

…lo cual es confuso ya que el mismo extracto obtuvo las puntuaciones más altas de perplejidad y explosión de 76,3 y 59,3, más altas que cualquier otro texto que enviamos en GPTZero.

Esto quiere decir que GPTZero, al estar en su fase inicial, no es capaz de detectar textos escritos por humanos con la misma precisión con la que detecta contenido generado a través de IA.

¿Qué tan preciso es GPTZero?

En nuestras exhaustivas pruebas del software, llegamos a la conclusión de que los resultados de GPTZero eran pasables en el mejor de los casos, debido a la inconsistencia de la herramienta en la detección de textos escritos por humanos. A pesar de que pudo leer y detectar el contenido generado por ChatGPT como escrito por IA, la incapacidad del software para reconocer oraciones cortas y textos escritos por humanos lo convierte en una herramienta poco confiable para que los educadores o periodistas verifiquen el plagio de IA.

Dado que el propósito de dicha herramienta es ayudar a las personas a abordar el uso poco ético de la generación de contenido de IA, GPTZero no se puede usar con un 100 % de confiabilidad. Esto no quiere decir que no haya posibilidades de mejora, ya que el reconocimiento de textos puede alcanzar un mayor potencial a medida que el software agrega más datos de otros modelos de lenguaje extenso (LLM) para mejorar la precisión del reconocimiento. Por ahora, sin embargo, puede usar GPTZero con una pizca de sal y su propia capacidad para distinguir palabras escritas por humanos y una máquina.

Eso es todo lo que necesita saber sobre la precisión de GPTZero.