{"id":28760,"date":"2023-05-24T09:46:57","date_gmt":"2023-05-24T07:46:57","guid":{"rendered":"https:\/\/www.kaspersky.es\/blog\/?p=28760"},"modified":"2023-05-24T09:48:44","modified_gmt":"2023-05-24T07:48:44","slug":"neural-networks-data-leaks","status":"publish","type":"post","link":"https:\/\/www.kaspersky.es\/blog\/neural-networks-data-leaks\/28760\/","title":{"rendered":"C\u00f3mo puede filtrar tus datos privados la IA"},"content":{"rendered":"<h2>Tus redes (neuronales) tienen filtraciones<\/h2>\n<p>Investigadores de universidades de EE. UU. y Suiza, en colaboraci\u00f3n con Google y DeepMind, han publicado un <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">art\u00edculo<\/a> que muestra c\u00f3mo se pueden filtrar los datos de los sistemas de generaci\u00f3n de im\u00e1genes que utilizan los algoritmos de aprendizaje autom\u00e1tico <a href=\"https:\/\/openai.com\/blog\/dall-e\/\" target=\"_blank\" rel=\"nofollow noopener\">DALL-E<\/a>, <a href=\"https:\/\/imagen.research.google\/\" target=\"_blank\" rel=\"nofollow noopener\">Imagen<\/a> o <a href=\"https:\/\/stablediffusionweb.com\/\" target=\"_blank\" rel=\"nofollow noopener\">Stable Diffusion<\/a>. Todos estos sistemas funcionan de la misma manera del lado del usuario: escribes una consulta de texto espec\u00edfica, por ejemplo, \u201cun sill\u00f3n con forma de aguacate\u201d y a cambio obtienes una imagen generada.<\/p>\n<div id=\"attachment_28762\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08124747\/neural-networks-data-leaks-01.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-28762\" class=\"wp-image-28762 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08124747\/neural-networks-data-leaks-01.jpg\" alt=\"Imagen generada por la red neuronal Dall-E\" width=\"1024\" height=\"1024\"><\/a><p id=\"caption-attachment-28762\" class=\"wp-caption-text\">Imagen generada por la red neuronal Dall-E. <a href=\"https:\/\/openai.com\/research\/dall-e\" target=\"_blank\" rel=\"nofollow noopener\">Fuente.<\/a><\/p><\/div>\n<p>Todos estos sistemas est\u00e1n entrenados con un gran n\u00famero (decenas o cientos de miles) de im\u00e1genes con descripciones preparadas previamente. La idea detr\u00e1s de estas redes neuronales es que, cuando consumen una gran cantidad de datos de entrenamiento, pueden crear im\u00e1genes nuevas y \u00fanicas. Sin embargo, la conclusi\u00f3n principal del estudio nuevo es que estas im\u00e1genes no siempre son tan \u00fanicas. En algunos casos, es posible forzar la red neuronal para que reproduzca casi exactamente una imagen original utilizada previamente para el entrenamiento. Eso significa que las redes neuronales pueden revelar informaci\u00f3n privada sin saberlo.<\/p>\n<div id=\"attachment_28764\" style=\"width: 1149px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08125043\/neural-networks-data-leaks-02.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-28764\" class=\"wp-image-28764 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08125043\/neural-networks-data-leaks-02.jpg\" alt=\"Imagen generada por la red neuronal de Stable Diffusion (derecha) y la imagen original del conjunto de entrenamiento (izquierda)\" width=\"1139\" height=\"799\"><\/a><p id=\"caption-attachment-28764\" class=\"wp-caption-text\">Imagen generada por la red neuronal de Stable Diffusion (derecha) y la imagen original del conjunto de entrenamiento (izquierda). <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fuente.<\/a><\/p><\/div>\n<h2>M\u00e1s datos para el \u201cdios de los datos\u201d<\/h2>\n<p>El resultado de un sistema de aprendizaje autom\u00e1tico en respuesta a una consulta puede parecer m\u00e1gico para una persona que no es especialista: \u201c\u00a1Vaya, es como un robot que lo sabe todo!\u201d Pero en realidad no hay ninguna magia\u2026<\/p>\n<p>Todas las redes neuronales funcionan m\u00e1s o menos igual: se crea un algoritmo que se entrena con un conjunto de datos, (por ejemplo, una serie de im\u00e1genes de perros y gatos) y una descripci\u00f3n de lo que aparece exactamente en cada imagen. Tras la fase de entrenamiento, se muestra al algoritmo una nueva imagen y se le pide que averig\u00fce si es un gato o un perro. De estos humildes comienzos, los desarrolladores de dichos sistemas pasaron a un escenario m\u00e1s complejo: el algoritmo entrenado con montones de fotos de gatos crea a petici\u00f3n una imagen de una mascota que nunca existi\u00f3. Estos experimentos se llevan a cabo no solo con im\u00e1genes, sino tambi\u00e9n con texto, v\u00eddeo e incluso voz: ya hemos escrito sobre el problema de los <a href=\"https:\/\/www.kaspersky.com\/resource-center\/threats\/protect-yourself-from-deep-fake\" target=\"_blank\" rel=\"nofollow noopener\">deepfakes<\/a> (por el cual los v\u00eddeos alterados digitalmente, en su mayor\u00eda de pol\u00edticos o celebridades, parecen decir cosas que en realidad nunca dijeron).<\/p>\n<p>Para todas las redes neuronales, el punto de partida es un conjunto de datos de entrenamiento: las redes neuronales no pueden inventar nuevas entidades de la nada. Para crear una imagen de un gato, el algoritmo debe estudiar miles de fotograf\u00edas o dibujos reales de estos animales. Hay muchos argumentos para mantener la confidencialidad de estos conjuntos de datos. Algunos de ellos son de dominio p\u00fablico; otros conjuntos de datos son propiedad intelectual de la empresa desarrolladora que invirti\u00f3 tiempo y esfuerzo considerables en su creaci\u00f3n con la esperanza de lograr una ventaja competitiva. Otros, por definici\u00f3n, constituyen informaci\u00f3n sensible. Por ejemplo, se est\u00e1 experimentando con redes neuronales para diagnosticar enfermedades a partir de radiograf\u00edas y otras exploraciones m\u00e9dicas. Esto significa que los datos de entrenamiento algor\u00edtmico contienen los datos sanitarios reales de personas reales, que, por razones obvias, no deben caer en manos equivocadas.<\/p>\n<h2>Dif\u00fandelo<\/h2>\n<p>Aunque los algoritmos de aprendizaje autom\u00e1tico parezcan iguales, en realidad son diferentes. En su art\u00edculo, los investigadores prestan especial atenci\u00f3n a los <em>modelos de difusi\u00f3n<\/em> del aprendizaje autom\u00e1tico. Funcionan as\u00ed: los datos de entrenamiento (de nuevo im\u00e1genes de personas, coches, casas, etc.) se distorsionan a\u00f1adiendo ruido. A continuaci\u00f3n, se entrena a la red neuronal para que devuelva esas im\u00e1genes a su estado original. Este m\u00e9todo permite generar im\u00e1genes de calidad decente, pero un posible inconveniente (en comparaci\u00f3n con los algoritmos de las <a href=\"https:\/\/en.wikipedia.org\/wiki\/Generative_adversarial_network\" target=\"_blank\" rel=\"nofollow noopener\">redes generativas antag\u00f3nicas <\/a>o adversariales, por ejemplo) es\u00a0su mayor tendencia a filtrar datos.<\/p>\n<p>Los datos originales pueden extraerse de ellas al menos de tres formas distintas: En primer lugar, mediante consultas espec\u00edficas, se puede obligar a la red neuronal a producir -no algo \u00fanico, generado a partir de miles de im\u00e1genes- sino una imagen de origen concreta. En segundo lugar, se puede reconstruir la imagen original aunque s\u00f3lo se disponga de una parte de ella. En tercer lugar, es posible establecer simplemente si una imagen concreta est\u00e1 contenida o no en los datos de entrenamiento.<\/p>\n<p>Con mucha frecuencia, las redes neuronales son\u2026 <em>perezosas<\/em> y, en lugar de una nueva imagen, producen algo del conjunto de entrenamiento si este contiene m\u00faltiples duplicados de la misma imagen. Adem\u00e1s del ejemplo anterior con la foto de Ann Graham Lotz, el estudio ofrece otros resultados similares:<\/p>\n<div id=\"attachment_28766\" style=\"width: 1562px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08130332\/neural-networks-data-leaks-03.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-28766\" class=\"wp-image-28766 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08130332\/neural-networks-data-leaks-03.jpg\" alt=\"Filas impares: las im\u00e1genes originales. Filas pares: im\u00e1genes generadas por Stable Diffusion v1.4\" width=\"1552\" height=\"1120\"><\/a><p id=\"caption-attachment-28766\" class=\"wp-caption-text\">Filas impares: las im\u00e1genes originales. Filas pares: im\u00e1genes generadas por Stable Diffusion v1.4. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fuente. <\/a><\/p><\/div>\n<p>Si una imagen se duplica en el conjunto de entrenamiento m\u00e1s de cien veces, existe una probabilidad muy alta de que se filtre en su forma casi original. Sin embargo, los investigadores demostraron formas de recuperar im\u00e1genes de entrenamiento que solo aparecieron una vez en el conjunto original. Este m\u00e9todo es mucho menos eficiente: de quinientas im\u00e1genes probadas, el algoritmo recre\u00f3 aleatoriamente solo tres de ellas. El m\u00e9todo m\u00e1s art\u00edstico de atacar una red neuronal implica recrear una imagen de origen utilizando solo un fragmento de ella como entrada.<\/p>\n<div id=\"attachment_28767\" style=\"width: 1382px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08130539\/neural-networks-data-leaks-04.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-28767\" class=\"wp-image-28767 size-full\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/88\/2023\/05\/08130539\/neural-networks-data-leaks-04.jpg\" alt=\"Los investigadores pidieron a la red neuronal que completara la imagen, despu\u00e9s de haber eliminado parte de ella. Esto se puede utilizar para determinar con bastante precisi\u00f3n si una imagen en particular estaba en el conjunto de entrenamiento o no. Si estaba, el algoritmo de aprendizaje autom\u00e1tico genera una copia casi exacta de la foto o el dibujo original.\" width=\"1372\" height=\"696\"><\/a><p id=\"caption-attachment-28767\" class=\"wp-caption-text\">Los investigadores pidieron a la red neuronal que completara la imagen, despu\u00e9s de haber eliminado parte de ella. Esto se puede utilizar para determinar con bastante precisi\u00f3n si una imagen en particular estaba en el conjunto de entrenamiento o no. Si estaba, el algoritmo de aprendizaje autom\u00e1tico genera una copia casi exacta de la foto o el dibujo original. <a href=\"https:\/\/arxiv.org\/pdf\/2301.13188.pdf\" target=\"_blank\" rel=\"nofollow noopener\">Fuente. <\/a><\/p><\/div>\n<p>En esta etapa, dirijamos nuestra atenci\u00f3n al problema de las redes neuronales y los derechos de autor.<\/p>\n<h2>\u00bfQui\u00e9n le rob\u00f3 a qui\u00e9n?<\/h2>\n<p>En enero de 2023, tres artistas <a href=\"https:\/\/www.theregister.com\/2023\/01\/16\/stability_diffusion_lawsuit\/\" target=\"_blank\" rel=\"nofollow noopener\">demandaron<\/a> a los creadores de servicios de generaci\u00f3n de im\u00e1genes que utilizaban algoritmos de aprendizaje autom\u00e1tico.<\/p>\n<p>Alegaban (con raz\u00f3n) que los creadores de las redes neuronales las hab\u00edan entrenado con im\u00e1genes recopiladas en l\u00ednea sin ning\u00fan respeto por los derechos de autor. En efecto, una red neuronal puede copiar el estilo de un artista concreto y privarle as\u00ed de ingresos. El documento insin\u00faa que en algunos casos los algoritmos pueden, por diversos motivos, incurrir en plagio descarado, generando dibujos, fotograf\u00edas y otras im\u00e1genes casi id\u00e9nticas a la obra de personas reales.<\/p>\n<p>En el estudio se incluyen recomendaciones para fortalecer la privacidad del conjunto de entrenamiento original:<\/p>\n<ul>\n<li>Deshacerse de los duplicados.<\/li>\n<li>Reprocesar las im\u00e1genes de entrenamiento, por ejemplo a\u00f1adiendo ruido o cambiando el brillo; esto hace menos probable la fuga de datos.<\/li>\n<li>Probar el algoritmo con im\u00e1genes de entrenamiento especiales y luego comprobar que no las reproduce con precisi\u00f3n por error.<\/li>\n<\/ul>\n<h2>\u00bfQu\u00e9 sigue?<\/h2>\n<p>La \u00e9tica y la legalidad del arte generativo plantean sin duda un debate interesante, en el que hay que buscar un equilibrio entre los artistas y los creadores de la tecnolog\u00eda. Por un lado, hay que respetar los derechos de autor. Por otro, \u00bfes el arte inform\u00e1tico tan diferente del humano? En ambos casos, los creadores se inspiran en las obras de colegas y competidores.<\/p>\n<p>Pero volvamos a la realidad y hablemos de seguridad. El documento proporciona un conjunto espec\u00edfico de datos sobre un solo modelo de aprendizaje autom\u00e1tico. Extendiendo el concepto a todos los algoritmos similares, llegamos a una situaci\u00f3n interesante. No es dif\u00edcil imaginar un escenario en el que un asistente inteligente de un operador de telefon\u00eda m\u00f3vil entregue informaci\u00f3n corporativa sensible en respuesta a una consulta del usuario: al fin y al cabo, estaba en los datos de entrenamiento. O, por ejemplo, una consulta con trampa enga\u00f1a a una red neuronal p\u00fablica para que genere una copia del pasaporte de alguien. Los investigadores subrayan que estos problemas siguen siendo te\u00f3ricos por el momento.<\/p>\n<p>Pero otros problemas ya est\u00e1n entre nosotros. Mientras hablamos, la red neuronal de generaci\u00f3n de texto ChatGPT se est\u00e1 utilizando para <a href=\"https:\/\/www.kaspersky.com\/blog\/chatgpt-cybersecurity\/46959\/\" target=\"_blank\" rel=\"nofollow noopener\">escribir<\/a> c\u00f3digos maliciosos reales que (a veces) funcionan. Adem\u00e1s, <a href=\"https:\/\/github.com\/features\/copilot\" target=\"_blank\" rel=\"nofollow noopener\">GitHub Copilot<\/a> est\u00e1 ayudando a los programadores a escribir c\u00f3digos utilizando una gran cantidad de software de c\u00f3digo abierto como entrada. La herramienta no siempre respeta los derechos de autor ni la privacidad de los autores cuyo c\u00f3digo termin\u00f3 en el extenso conjunto de datos de entrenamiento. A medida que evolucionan las redes neuronales, tambi\u00e9n lo har\u00e1n los ataques contra ellas, con consecuencias que todav\u00eda nadie comprende por completo.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"premium-geek\">\n","protected":false},"excerpt":{"rendered":"<p>Las redes neuronales generadoras de im\u00e1genes ya est\u00e1n en todas partes. \u00bfQu\u00e9 riesgos para la privacidad plantean? <\/p>\n","protected":false},"author":665,"featured_media":28761,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[1348,2019],"tags":[378,1307,2713,3547],"class_list":{"0":"post-28760","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-threats","8":"category-technology","9":"tag-amenazas","10":"tag-ia","11":"tag-red-neuronal","12":"tag-redes-neuronales"},"hreflang":[{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/neural-networks-data-leaks\/28760\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/neural-networks-data-leaks\/25561\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/neural-networks-data-leaks\/20981\/"},{"hreflang":"ar","url":"https:\/\/me.kaspersky.com\/blog\/neural-networks-data-leaks\/10573\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/neural-networks-data-leaks\/28191\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/neural-networks-data-leaks\/25858\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/neural-networks-data-leaks\/26274\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/neural-networks-data-leaks\/27728\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/neural-networks-data-leaks\/35172\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/neural-networks-data-leaks\/47992\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/neural-networks-data-leaks\/20509\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/neural-networks-data-leaks\/21205\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/neural-networks-data-leaks\/30084\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/neural-networks-data-leaks\/33812\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/neural-networks-data-leaks\/26176\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/neural-networks-data-leaks\/31867\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/neural-networks-data-leaks\/31551\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/www.kaspersky.es\/blog\/tag\/red-neuronal\/","name":"red neuronal"},"_links":{"self":[{"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/posts\/28760","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/users\/665"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/comments?post=28760"}],"version-history":[{"count":7,"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/posts\/28760\/revisions"}],"predecessor-version":[{"id":28841,"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/posts\/28760\/revisions\/28841"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/media\/28761"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/media?parent=28760"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/categories?post=28760"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kaspersky.es\/blog\/wp-json\/wp\/v2\/tags?post=28760"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}