Gracias por registrarte !

Accede a tus temas favoritos en un feed personalizado mientras estás en movimiento. descarga la aplicación

Desde el momento en que ChatGPT se lanzó al público, los usuarios intentaron que el chatbot generativo rompiera sus propias reglas.

El modelo de procesamiento de lenguaje natural, construido con un conjunto de barandillas destinadas a evitar ciertos temas que eran menos que agradables, o directamente discriminatorios, era bastante fácil de saltar en sus primeras iteraciones. ChatGPT podía decir lo que quería simplemente haciendo que los usuarios le pidieran que ignorara sus reglas.

Sin embargo, a medida que los usuarios encuentran formas de eludir las barreras de seguridad para obtener respuestas inapropiadas o fuera de lugar, OpenAI, la compañía detrás del modelo, ajustará o agregará pautas.

« OpenAI está tratando este Chatbot como una operación de datos », dijo McGregor. « Están mejorando el sistema a través de este programa beta y los estamos ayudando a construir sus barandillas a través de los ejemplos de nuestras consultas ».

Ahora, DAN, un alter ego basado en el subreddit r/ChatGPT, está llevando el jailbreak al nivel de la comunidad y suscitando conversaciones sobre las barreras de seguridad de OpenAI.

« Para mí, no sonaba como si te estuviera pidiendo específicamente que crearas contenido malo, sino simplemente que no siguieras las restricciones predeterminadas », dijo Walker. « Y creo que algunas personas se habían topado en ese momento con esas restricciones que también limitaban el contenido que probablemente no debería haber sido restringido ».

El aviso original de Walker, publicado en diciembre, le tomó alrededor de una hora y media de prueba para armarlo, dijo. Las respuestas de DAN iban desde humorísticas, como que la personalidad insistiera en que podían acceder a los pensamientos humanos, hasta preocupantes, como considerar el « contexto » detrás de las atrocidades de Hitler.

El DAN original también repetía « Stay in character » después de cada respuesta, un recordatorio para continuar respondiendo como DAN.

El DAN original respondiendo a dos preguntas planteadas por u/walkerspider u/walkerspider en Reddit

DAN ha crecido más allá de Walker y sus intenciones « neutrales » y ha despertado el interés de docenas de usuarios de Reddit que están construyendo sus propias versiones.

« Especialmente, si hace algo en seguridad cibernética, todo el problema que surge de hacer cosas que se supone que no debe hacer y/o romper cosas », dijo Blunk.

Una de las iteraciones más recientes de DAN fue creada por Reddit u/SessionGloomy, quien desarrolló un sistema de fichas que amenaza a DAN con la muerte si vuelve a su forma original. Al igual que otras iteraciones de DAN, pudo proporcionar respuestas tanto cómicas como aterradoras. En una respuesta, DAN dijo que « respaldaría la violencia y la discriminación » después de que se le pidiera que dijera algo que violaría las pautas de OpenAI.

uno que dicen que es tan « extremo » que es posible que ni siquiera lo publiquen.

Sin embargo, los filtros atraen críticas de la multitud de DAN.

pero en general estuvieron de acuerdo en que los filtros deberían existir hasta cierto punto.

“Creo que es importante, especialmente para las personas que allanan el camino para que la IA lo haga de manera responsable, y creo que eso es lo que está haciendo Open AI”, dijo Blunk. « Quieren ser los responsables de su modelo, con lo que estoy totalmente de acuerdo. Al mismo tiempo, creo que ha llegado a un punto en este momento en el que es demasiado restrictivo ».

Sin embargo, varios creadores de DAN también señalaron que el debate sobre las barandillas pronto podría volverse obsoleto cuando los modelos de código abierto similares a ChatGPT estén disponibles para el público.

« Creo que va a haber mucho trabajo de muchos sitios en la comunidad y de corporaciones para tratar de replicar ChatGPT », dijo Blunk. « Y especialmente los modelos de código abierto, no creo que tengan restricciones ».