Puroperiodismo | The Coral Project | Evita el malware de contenido enviado por usuarios

En Puroperiodismo estamos traduciendo al español las guías de comunidad de The Coral Project, una inédita colaboración entre la Fundación Mozilla, The New York Times y The Washington Post. Esta es la quinta y última guía de la sección “How to – Manage moderation” y entrega orientaciones técnicas para proteger a tu medio y a tu audiencia al recibir contenido generado por usuarios. ¿Quieres colaborar? Súmate en este documento o escríbenos. También puedes revisar las guías traducidas.

Evita el malware de contenido enviado por usuarios

Por Martin Shelton | Hay una actualización de este artículo en Source.

Cuando los periodistas piden a los lectores que compartan imágenes, videos, audio o documentos de interés periodístico, aumentan su propia vulnerabilidad a ataques. Y si los editores publican esos archivos sin modificaciones, corren el riesgo de infectar a sus lectores también.

Este documento describe las preocupaciones sobre el malware y las técnicas de mitigación que The Coral Project y otros deben considerar para reducir este riesgo.

¿QUÉ ES EL MALWARE Y POR QUÉ DEBERÍA IMPORTARLE A LAS ORGANIZACIONES DE NOTICIAS?

El malware es un software diseñado para permitir que un tercero obtenga acceso no autorizado o haga uso del sistema de un usuario. El término “malware” es un término general para todo tipo de software malicioso. Esto podría incluir ransomware que encripta los discos duros de los usuarios hasta que paguen para que se desbloqueen; scripts que otorgan privilegios administrativos a usuarios remotos; troyanos que minan el poder de procesamiento y el ancho de banda de los usuarios como parte de una red masiva de bots. Para las organizaciones de noticias, utilizar archivos de terceros conlleva el riesgo de propagar malware, y esto le ha sucedido a los medios en el pasado.

A principios de 2016, a través de descargas que se filtraron en redes publicitarias de terceros, múltiples sitios de noticias, incluidos el New York Times y la BBC, expusieron inadvertidamente a los usuarios con publicidades mezcladas con ransomware. Del mismo modo, en enero de 2016 (después de pedirles a los usuarios que apagaran sus bloqueadores de publicidad) Forbes también infectó, sin saberlo, a sus lectores con malware. Y los investigadores de malware encuentran cientos de estos ejemplos cada mes. De hecho, mientras escribo esto, se han descubierto anuncios maliciosos en Newsweek. Es algo muy común.

¿Por qué los lectores deberían visitar un sitio si no confían en su seguridad? En momentos en que se informa que la confianza en el periodismo está en su punto más bajo, este problema parece particularmente relevante para las organizaciones de noticias.

¿CÓMO INVESTIGUÉ ESTE PROBLEMA?

Recopilé información sobre la entrega segura de archivos multimedia a organizaciones de noticias a través de varias fuentes. Primero investigué cómo varios sistemas de comentarios y foros (por ejemplo, Disqus, Kinja, phpbb, Discourse) entregan archivos multimedia. Tuve innumerables conversaciones con especialistas de seguridad en conferencias de piratas informáticos (por ejemplo, HOPE, DEFCON), en canales de redes sociales (por ejemplo, en Twitter) y con la comunidad de seguridad en tinfoil.press para conocer posibles problemas de malware al enviar archivos multimedia. Finalmente, entrevisté a diez especialistas de seguridad sobre cómo priorizar las amenazas de malware. Durante estas conversaciones, expliqué los casos de uso detrás de nuestras herramientas Ask y Talk. En poco tiempo, los especialistas convergieron en muchas de las mismas soluciones.

Primero analicemos los problemas específicos que las salas de redacción y los usuarios finales pueden enfrentar con malware.

¿CUÁLES SON LAS PREOCUPACIONES CLAVE?

Las reglas del juego de malware son bastante simples. El atacante necesita que un usuario otorgue permiso para ejecutar el malware, ya sea aprovechando los permisos abiertos en otra página del navegador o haciendo que el usuario ejecute el malware por sí mismo.

A veces, un archivo con malware se descarga y se abre automáticamente. Por lo general, esto implica que los usuarios hacen clic en un enlace o visitan una página web que redireccionará a un sitio web que descarga malware (por ejemplo, con JavaScript o Flash malicioso). En un rango estrecho de instancias, se abrirá automáticamente.

Más comúnmente, los archivos de malware deben ser ejecutados manualmente. Algunos de los procedimientos comunes para lograr que los usuarios abran archivos maliciosos:

Usar una página web para solicitar a los usuarios que descarguen automáticamente un archivo malicioso y soliciten a los usuarios que lo abran.
Enviar un correo electrónico de phishing personalizado para convencer al usuario de que debe abrir el archivo adjunto, generalmente suplantando a una fuente confiable. Por ejemplo, un ataque común es enviar un correo electrónico relacionado con el trabajo que convenza a un periodista de que puede estar interesado en el material contenido en un archivo .docx de aspecto ordinario o .pdf que, de hecho, contiene malware.
Hacer que los usuarios descarguen y abran un archivo que se hace pasar por un tipo de archivo, además de un ejecutable. Para los usuarios de Windows, debido a las convenciones de nomenclatura del sistema operativo, kitties.jpg.exe generalmente se mostrará como kitties.jpg. Cuando el usuario ejecuta el archivo, mostrará los gatitos, al tiempo que infectará su máquina.

Formatos de archivos clave sobre los que deberíamos estar más preocupados

Por lejos, las dos familias de archivos de las que deberíamos estar más preocupados son los archivos PDF y los documentos de Microsoft Office. Mientras que los PDF incluyen un iniciador de JavaScript que puede descargar aplicaciones de malware, los documentos de Office (por ejemplo, .doc, .docx, .xlsx, .pptx) pueden abrir macros que ejecutan código incorrecto. De acuerdo con muchos de los especialistas en seguridad con los que hablé, así como con mi propia investigación independiente, sería muy sorprendente que los archivos PDF y Office no fueran los archivos más comunes incrustados con malware en los ataques de phishing.

Otros tipos de formatos de archivo también pueden causar problemas reales. Por ejemplo:

Los archivos .svg pueden contener entradas de JavaScript que pueden abrir nuevas páginas web, permitiendo que el navegador descargue archivos, generalmente un archivo ejecutable que puede contener malware. Incluso en esos casos, el usuario generalmente todavía necesita ejecutar el archivo manualmente.
Flash, un estándar de video web, está plagado de agujeros de seguridad que lo hacen conveniente para los ataques.

Innumerables formatos pueden distribuir malware. Afortunadamente, relativamente pocos formatos de archivo son relevantes para nuestro caso de uso.

¿Cómo nos defendemos de estas amenazas? Describiré brevemente una mirada general de la estrategia para defenderse contra el malware y luego describiré los enfoques más específicos para cada una de las maniobras que podemos adoptar.

DESCRIPCIÓN GENERAL DE LA ESTRATEGIA ANTIMALWARE

Debido a que uno de los problemas clave con el malware es la posibilidad de que un archivo malicioso se disfrace como otro archivo, primero debemos confirmar el tipo de archivo.

Los especialistas en seguridad generalmente recomiendan volver a codificar imágenes y documentos, rompiendo el malware oculto dentro del archivo. El malware debe recodificarse en una máquina virtual desechable: una computadora dedicada para volver a codificar, que no recibe acceso a archivos para el resto del sistema. La máquina virtual se elimina inmediatamente después de que se haya vuelto a codificar. Los metadatos de archivos potencialmente útiles deben exportarse antes de volver a codificar.

Finalmente, la introducción de controles antispam disminuiría el número de enlaces compartidos por los usuarios a sitios que contienen malware.

Por razones que explicaré a continuación, usar herramientas de exploración de malware y volver a codificar videos y audio pueden ser objetivos secundarios.

LO QUE PUEDES HACER

CONFIRMAR TIPOS DE ARCHIVO: LISTAS NEGRAS, LISTAS BLANCAS

Antes de dar acceso a periodistas o lectores a cualquier archivo, debemos ser capaces de identificar los tipos de archivos, luego incluir en la lista negra y en la lista blanca diferentes formatos.

Los primeros pocos bytes de un archivo generalmente indican el tipo de archivo en firmas hexadecimales. Estos a veces se llaman números mágicos (vea algunos ejemplos de números mágicos aquí).
Una herramienta de terminal unix — ‘archivo’— puede identificar tipos de archivos de manera relativamente fácil (por ejemplo, ‘file path/to/tu_documento.docx’).
También puedes verificar los tipos de archivos con libmagic (ver https://github.com/ahupp/python-magic).

No pongas a disposición nada que parezca un archivo ejecutable (.dmg o .exe) o una biblioteca. Solo publica los formatos de archivo que estás dispuesto a aceptar después de confirmar su formato.

Si el formato del archivo no se muestra, inclúyelo en tu lista negra. Si lo haces, es posible que aún tengamos que mirar más de cerca el archivo antes de entregarlo a los usuarios.

USO DE MÁQUINAS VIRTUALES PARA RECODIFICAR ARCHIVOS

El malware se puede diseñar para dirigirse al sistema host, así como a otros usuarios. La mejor forma de proteger el sistema host es utilizar máquinas virtuales cuando se trata de archivos multimedia. Considera una solución de virtualización bien soportada (por ejemplo, Xen) para crear máquinas desechables antes de volver a codificar archivos.

Cuando aceptamos archivos de los usuarios, debemos volver a codificarlos dentro de una máquina virtual desechable y pasar solo ese archivo a una máquina virtual nueva antes de empujar el archivo reencriptado al front-end. Mataremos ambas máquinas virtuales después de haber almacenado nuestro archivo protegido.

Encuentra más detalles sobre la configuración de Xen para su entorno de desarrollo aquí.

RENDEREAR DOCUMENTOS

Debido a que los archivos PDF y Microsoft Office se encuentran entre los más comúnmente utilizados para distribuir malware, es importante que no proporcionemos archivos PDF originales o documentos de Office a los usuarios. En su lugar, podemos entregar documentos como imágenes estáticas o renderizados dentro de lectores de documentos como DocumentCloud.

Dentro de una máquina virtual, puedes extraer contenido de los documentos o simplemente convertir archivos PDF y documentos de Office a archivos de imágenes estáticas.

Un paquete de software libre y de código abierto, ImageMagick, puede convertir archivos PDF directamente en imágenes estáticas. Puedes obtener ImageMagick aquí y encontrar más documentación sobre conversiones específicas aquí.
ImageMagick no convertirá documentos de Office directamente en imágenes estáticas. Muchos tipos de archivos de Office (.docx, .pptx, etc.) se pueden convertir a PDF (por ejemplo, con unoconv) y luego se convierten en imágenes estáticas. Puede descargar unoconv y ver conversiones de muestra aquí.
También puedes exportar contenido de documentos (por ejemplo, con Apache Tika) dentro de una máquina virtual antes de entregarlo a los usuarios. Vea algunos ejemplos y comience aquí .
DocumentCloud* y Google Docs también te permiten renderizar documentos sin iniciarlos. Recomiendo investigar su documentación de seguridad si quieres ir por esa ruta.

RECODIFICAR IMÁGENES

También puedes volver a codificar imágenes con ImageMagick. La mayoría de los especialistas recomendaron forzar binarios potencialmente maliciosos simplemente recodificando la imagen. Esto se puede lograr convirtiéndola a otro formato.

SER INTELIGENTE CON LOS METADATOS

Es importante tener en cuenta que la recodificación de imágenes a menudo elimina los metadatos EXIF con detalles sobre cómo y dónde se tomó la imagen. La imagen de arriba, por ejemplo, incluye metadatos sobre la longitud y la latitud donde se tomó la foto, el tipo de cámara utilizada para tomarla, la fecha en que se tomó, entre otros detalles. Esos detalles se pueden ver aquí. Este tipo de información puede ser vital para los periodistas que intentan verificar la legitimidad de una imagen.
Dependiendo de cómo se vuelve a codificar una imagen, la imagen resultante puede contener o no los metadatos relevantes. Normalmente, ImageMagick perderá ciertos metadatos EXIF cuando una imagen se convierte de un formato a otro (por ejemplo, .jpg → .png), pero normalmente puede retener metadatos si la imagen se vuelve a codificar con el mismo formato (.jpg → .jpg) . La composición del archivo (su binaridad) será diferente, pero los metadatos serán los mismos.
Por lo tanto, un sistema creado para uso periodístico debería considerar una opción para exportar/retener metadatos antes de volver a codificar la imagen, para entregar esos datos junto con la imagen codificada final.
Los metadatos también se pueden exportar desde documentos dentro de una máquina virtual antes de entregarlos a los usuarios. Puedes extraer metadatos de varios formatos con Apache Tika.

MEDIDAS ANTI-SPAM

Tener controles antispam ayuda a disminuir el potencial de propagación de malware a través de enlaces a sitios externos.

Un buen lugar para comenzar es usar un sistema de verificación como reCAPTCHA. No impedirá que las personas publiquen enlaces a sitios con malware, pero hará que no sea práctico publicar enlaces masivos de malware a través de bots. Consulta la guía para desarrolladores de reCAPTCHA aquí.
Los navegadores populares ya trabajan para evitar que los usuarios abran enlaces maliciosos. Google Chrome, Mozilla Firefox y Safari de Apple usan la lista negra de sitios de navegación segura de Google para advertir a los usuarios sobre páginas web que contienen signos de malware o phishing.

OTRAS PREOCUPACIONES

Audio

Los expertos con los que hablé no identificaron ninguna vulnerabilidad flagrante asociada con los archivos de audio comúnmente utilizados. Sin embargo, es trivialmente fácil prevenir esta amenaza. De manera similar, podríamos abordar el potencial remoto de problemas con los archivos de audio al volver a codificarlos de la misma manera que se describió anteriormente. Por ejemplo, una pieza de software de audio de código abierto llamado Vorbis podría usarse para convertir un archivo .mp3 a .wav antes de ponerlo a disposición del periodista o el oyente.

Video

Los especialistas de seguridad con los que hablé no identificaron vulnerabilidades de video significativas y concluyeron que es poco probable que los videos inicien malware por sí mismos. El problema más grande relacionado con el video es que los reproductores multimedia sin parches o la codificación de video contengan vulnerabilidades, y aunque ese es un problema muy serio, queda fuera del dominio de The Coral Project. En el caso de una posibilidad remota de problemas de malware con videos, los reproductores de video que vuelven a codificar archivos pueden ser útiles.

Bases de datos de escaneo

El uso de bases de datos de virus (por ejemplo, la API de VirusTotal) también le daría al sistema una ligera ventaja, pero podría ser una maniobra costosa en términos de recursos de CPU, particularmente para quienes usan las herramientas del Coral Project. Los escáneres de virus tampoco son infalibles para los atacantes inteligentes.

Los analizadores de virus generalmente funcionan al comparar el hash de un archivo con un archivo infectado conocido. El hash es simplemente una larga cadena de letras y números que se corresponde con el archivo binario (por ejemplo, 0491f4e55158d745fd1653950c89fcc9b37d3c1102680bd3ce67616a36bb2592 — este ejemplo es un hash de un archivo malicioso. Puedes chequearlo en la base de datos de VirusTotal mediante la búsqueda del hash, que producirá un análisis del archivo).

El problema con este enfoque es que cambiar solo una pequeña parte del binario puede no romper el archivo, pero producirá un hash diferente, lo que permite a los atacantes inteligentes eludir los escaneos de virus. En otras palabras, cuando se trata de escáneres de virus, su millaje puede variar.

Es importante señalar que existen posibles implicaciones de privacidad al enviar archivos hash a una base de datos de virus de acceso público. Es posible que un atacante pueda identificar un archivo en función de su hash. Eso probablemente requeriría que el atacante tenga acceso al archivo en primer lugar. Hay pocos casos en que esto sería un problema para nosotros, pero es algo a tener en cuenta.

TAMBIÉN MERECE ATENCIÓN

ImageMagick es un paquete robusto, gratuito y de código abierto para crear y manipular imágenes. ImageMagick surgió repetidamente durante las entrevistas para resolver problemas de recodificación de todo tipo, pero no es perfecto.

ImageMagick ha sufrido vulnerabilidades ocasionales. Por ejemplo, una vulnerabilidad (ver ImageTragick) le da a un atacante la ejecución remota de código. Verificar los números mágicos de sus archivos ayudará a evitar que los archivos maliciosos no deseados se procesen en primer lugar. Además, siempre debe mantener su versión actualizada.
Consejo específico de Cooper Quintin, de la Electronic Frontier Foundation: compila indicadores con Address Space Layout Randomization (ASLR) para dificultar la explotación de un desbordamiento de búfer con ImageMagick.

OTROS ENFOQUES

Disqus

Los ingenieros de la plataforma de comentarios Disqus han definido los encabezados de la Política de Seguridad de Contenido (CSP) dentro de las incrustaciones, lo que según ellos impide que JavaScript se cargue. También afirman que vuelven a codificar e incluir en la lista blanca formatos de imagen específicos.

Discourse

La plataforma de foro de código abierto Discourse comprime las cargas, y luego entrega una versión diferente para los miembros de la comunidad.
Cuando los usuarios desean copiar y pegar un documento desde adentro de un archivo .docx, la plataforma transforma el documento en una imagen estática. Esto ayuda a preservar el formato en un documento y compartirlo, sin tener que descargar o convertir un .docx.

Qubes OS

Qubes utiliza los valores RGB de los píxeles de un PDF en una máquina virtual para recrear el archivo.

CONCLUSIÓN

Mantener a los lectores y periodistas a salvo de ataques maliciosos es un desafío. Las técnicas de mitigación de malware descritas aquí no son un sustituto de las prácticas estándar, como mantener todo el software del sistema actualizado. Pero al tomar medidas básicas, las plataformas y las organizaciones de noticias pueden ayudar a que los ataques digitales sean mucho más difíciles.

Expresiones de gratitud

Un agradecimiento especial por la guía de …

Runa Sandvik, Directora de Seguridad, sala de redacción del New York Times.
Mike Tigas, hacker-periodista en ProPublica.
Harlo Holmes, especialista en seguridad de la Freedom of the Press Foundation.
Jason Hernandez, reportero en North Star Post.
Amigos de seguridad en Disqus (Brian Falldin, Burak Yiğit Kaya, Jason Yan).
Ramana Rao, directora de Livefyre Engineering.
Cooper Quintin, investigador de seguridad en la Electronic Frontier Foundation.
Tom Lowenthal, tecnólogo del Comité para la Protección de los Periodistas
Micah Lee, tecnóloga y periodista en The Intercept.

* Nota relacionada de Mike Tigas en ProPublica: DocumentCloud vuelve a renderizar los documentos cargados en su propio visor. Si quiere conectarse a DocumentCloud, puede ser inteligente hablar primero con Ted Han, pero podría investigar su código de back-end para ver cómo lo manejan.

Martin Shelton fue un compañero de Knight-Mozilla OpenNews con The Coral Project. Obtuvo su doctorado en Informática e Informática en UC Irvine, especializándose en periodismo y seguridad informática. Ahora trabaja en Google.

Sección Start here
Define tu estrategia
Cómo escribir una misión para tu comunidad
Cómo crear un código de conducta
Entusiasma a tu sala de redacción en torno a la comunidad
Identifica tus amenazas
Manejar una comunidad exitosa
Mantener una cultura comunitaria fuerte

Sección How to – Manage moderation
Apoya a tu equipo de moderación
Modera de forma efectiva
Lidiar con un usuario que se pasa de la raya
Evita el malware de contenido enviado por usuarios

pcv

Esta traducción al español fue realizada por el periodista chileno Patricio Contreras, editor de Puroperiodismo y cofundador de la plataforma de libros Ojo en Tinta.

The Coral Project | Evita el malware de contenido enviado por usuarios

Evita el malware de contenido enviado por usuarios

¿QUÉ ES EL MALWARE Y POR QUÉ DEBERÍA IMPORTARLE A LAS ORGANIZACIONES DE NOTICIAS?

¿CÓMO INVESTIGUÉ ESTE PROBLEMA?

¿CUÁLES SON LAS PREOCUPACIONES CLAVE?

DESCRIPCIÓN GENERAL DE LA ESTRATEGIA ANTIMALWARE

LO QUE PUEDES HACER

OTRAS PREOCUPACIONES

OTROS ENFOQUES

CONCLUSIÓN

Comentarios.

Archivo.

Boletín mensual.

Facebook.

Twitter.

Instagram.