Respaldar un sitio web con wget

Se que en varios sitios se pueden encontrar instrucciones para copiar sitios web completos usando wget, pero estos parámetros son los que mejor me han funcionado y escribo este mini-artículo para que nos se me olvide y volver a encontrarlo rápidamente.

wget -m -F -p -np -k -erobots=off -U mozilla --limit-rate=100K --wait=2 --html-extension http://www.loquequierasdescargar.com
  • -m: Activa el modo espejo. Esto significa que wget intentará descargar todo el sitio web, manteniendo la estructura de directorios.
  • -F: Este parámetro se utiliza para seguir enlaces a archivos de tipo «frame». Sin embargo, es menos común y puede no ser necesario en todos los casos.
  • -p: Descarga todos los archivos necesarios para mostrar la página HTML correctamente, como imágenes y hojas de estilo.
  • -np: Significa «no parent». Esto evita que wget suba a directorios superiores al directorio del enlace que estás descargando. Es útil para limitar la descarga a un subdirectorio específico.
  • -k: Convierte los enlaces en los archivos descargados para que sean locales. Esto permite que los archivos funcionen correctamente cuando se visualizan sin conexión.
  • -erobots=off: Ignora el archivo robots.txt, que es un estándar que indica a los bots web qué partes de un sitio pueden o no pueden ser accedidas. Usar este parámetro puede ser útil si deseas descargar contenido que normalmente estaría bloqueado.
  • -U mozilla: Establece el «User-Agent» a «mozilla», lo que puede ayudar a simular que la solicitud proviene de un navegador web, en lugar de un script.
  • --limit-rate=100K: Limita la velocidad de descarga a 100 kilobytes por segundo. Esto puede ser útil para no saturar la conexión a Internet.
  • --wait=2: Hace que wget espere 2 segundos entre cada solicitud. Esto puede ayudar a reducir la carga en el servidor y evitar ser bloqueado por hacer demasiadas solicitudes en poco tiempo.
  • --html-extension: Guarda los archivos HTML con la extensión .html, lo que puede ser útil para asegurarte de que los archivos se abran correctamente en un navegador.
  • http://www.loquequierasdescargar.com: Es la URL del sitio web que deseas descargar.

En resumen, este comando está diseñado para descargar un sitio web completo, manteniendo su estructura y asegurando que todos los recursos necesarios se descarguen y funcionen correctamente sin conexión, mientras se limita la velocidad de descarga y se espera entre las solicitudes.

Evitar descargar nuevamente archivos ya descargados.

Es muy común que no se alcancé a descargar todo en una sola sesión.

Entonces para evitar descargar nuevamente archivos que ya han están en la unidad de almacenamiento se puede agregar el parámetro -nc

Si tienen dudas sobre el uso de este o cualquier otro parámetro de wget pueden consultar la documentación oficial de wget.

Espero que a ustedes también les sea útil.

3 comentarios en «Respaldar un sitio web con wget»

  1. Interesante aporte, el único problema que le veo es que ahora muchas webs funcionan con CMS que a su vez utilizan bases de datos, por lo que esa información no la tendrás.

    Saludos!

    Responder

¡Me encantaría saber que opinas!

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.