OpenAI está siendo demandado por entrenar a ChatGPT con datos personales "robados"

  • El bufete de abogados acusa a OpenAI de usar sus datos sin consentimiento.

Un bufete de abogados de California ha presentado una Demanda colectiva(se abre en una pestaña nueva) contra OpenAI por “robar” datos personales para entrenar a ChatGPT.

Firefly a IA robot working in offices photo realistic 23216Clarkson Law Firm, en una demanda presentada en el tribunal del Distrito Norte de California el miércoles, alega que ChatGPT y Dall-E “usan información privada robada, incluida información de identificación personal, de cientos de millones de usuarios de Internet, incluidos niños de todas las edades, sin su consentimiento o conocimiento informado”. Para entrenar su modelo de lenguaje grande, OpenAI raspó 300 mil millones de palabras de Internet, incluida información personal y publicaciones de sitios de redes sociales como Twitter y Reddit. El bufete de abogados afirma que OpenAI “lo hizo en secreto y sin registrarse como corredor de datos, como estaba obligado a hacer según la ley aplicable”.

OpenAI ha sido objeto de controversia sobre cómo y qué datos recopila para entrenar y desarrollar aún más ChatGPT. Hasta hace poco, no había una forma explícita para que los usuarios optaran por no permitir que OpenAI usara sus conversaciones e información personal para alimentar el modelo. ChatGPT fue prohibido inicialmente en Italia, utilizando el Reglamento General de Protección de Datos (GDPR) de Europa, por proteger inadecuadamente los datos de los usuarios, especialmente cuando se trata de menores. Esta demanda incluye las políticas de privacidad opacas de OpenAI para los usuarios existentes, pero se centra principalmente en los datos extraídos de la web que nunca tuvieron la intención explícita de ser compartidos con ChatGPT. A través de inversiones de miles de millones de dólares de Microsoft e ingresos por suscriptores para ChatGPT Plus, OpenAI se ha beneficiado de estos datos sin compensar su fuente.

Los 15 cargos en la demanda incluyen violación de la privacidad, negligencia por no proteger los datos personales y robo al obtener ilegalmente cantidades masivas de datos personales para entrenar a sus modelos. Los conjuntos de datos como Common Crawl, Wikipedia y Reddit, que incluyen información personal, están disponibles públicamente siempre que las empresas sigan los protocolos para la compra y el uso de estos datos. Pero OpenAI supuestamente usó estos datos sin permiso o consentimiento de los usuarios en el contexto de ChatGPT. Aunque la información personal de las personas es pública en sitios de redes sociales, blogs y artículos, si los datos se utilizan fuera de la plataforma prevista, puede considerarse una violación de la privacidad.

En Europa, existe una distinción legal entre el dominio público y los datos de uso gratuito gracias a la ley GDPR, pero en los Estados Unidos, eso todavía está en debate. Nader Henein, vicepresidente de investigación de privacidad de Gartner que cree que el sentimiento de la demanda es válido, dijo: “Las personas deberían tener control sobre cómo se usan sus datos, incluso cuando están disponibles en el dominio público”. Pero Henein no está seguro de si el sistema legal de Estados Unidos estaría de acuerdo.

Ryan Clarkson, socio gerente dijo en el Entrada de blog(se abre en una pestaña nueva), es fundamental actuar ahora con las leyes existentes en lugar de esperar a que los poderes Ejecutivo y Judicial respondan con la regulación federal. “No podemos permitirnos pagar el costo de los resultados negativos con IA como lo hemos hecho con las redes sociales, o como lo hicimos con la energía nuclear. Como sociedad, el precio que todos pagaríamos es demasiado alto”.

Fuente : Mashable

Deja una respuesta