Se que en varios sitios se pueden encontrar instrucciones para copiar sitios web completos usando wget, pero estos parámetros son los que mejor me han funcionado y escribo este mini-artículo para que nos se me olvide y volver a encontrarlo rápidamente.
wget -m -F -p -np -k -erobots=off -U mozilla --limit-rate=100K --wait=2 --html-extension http://www.loquequierasdescargar.com
-m
: Activa el modo espejo. Esto significa quewget
intentará descargar todo el sitio web, manteniendo la estructura de directorios.-F
: Este parámetro se utiliza para seguir enlaces a archivos de tipo «frame». Sin embargo, es menos común y puede no ser necesario en todos los casos.-p
: Descarga todos los archivos necesarios para mostrar la página HTML correctamente, como imágenes y hojas de estilo.-np
: Significa «no parent». Esto evita quewget
suba a directorios superiores al directorio del enlace que estás descargando. Es útil para limitar la descarga a un subdirectorio específico.-k
: Convierte los enlaces en los archivos descargados para que sean locales. Esto permite que los archivos funcionen correctamente cuando se visualizan sin conexión.-erobots=off
: Ignora el archivorobots.txt
, que es un estándar que indica a los bots web qué partes de un sitio pueden o no pueden ser accedidas. Usar este parámetro puede ser útil si deseas descargar contenido que normalmente estaría bloqueado.-U mozilla
: Establece el «User-Agent» a «mozilla», lo que puede ayudar a simular que la solicitud proviene de un navegador web, en lugar de un script.--limit-rate=100K
: Limita la velocidad de descarga a 100 kilobytes por segundo. Esto puede ser útil para no saturar la conexión a Internet.--wait=2
: Hace quewget
espere 2 segundos entre cada solicitud. Esto puede ayudar a reducir la carga en el servidor y evitar ser bloqueado por hacer demasiadas solicitudes en poco tiempo.--html-extension
: Guarda los archivos HTML con la extensión.html
, lo que puede ser útil para asegurarte de que los archivos se abran correctamente en un navegador.http://www.loquequierasdescargar.com
: Es la URL del sitio web que deseas descargar.
En resumen, este comando está diseñado para descargar un sitio web completo, manteniendo su estructura y asegurando que todos los recursos necesarios se descarguen y funcionen correctamente sin conexión, mientras se limita la velocidad de descarga y se espera entre las solicitudes.
Evitar descargar nuevamente archivos ya descargados.
Es muy común que no se alcancé a descargar todo en una sola sesión.
Entonces para evitar descargar nuevamente archivos que ya han están en la unidad de almacenamiento se puede agregar el parámetro -nc
Si tienen dudas sobre el uso de este o cualquier otro parámetro de wget pueden consultar la documentación oficial de wget.
Espero que a ustedes también les sea útil.
Interesante aporte, el único problema que le veo es que ahora muchas webs funcionan con CMS que a su vez utilizan bases de datos, por lo que esa información no la tendrás.
Saludos!
Yo no le veo mayor problema, si quiero tener algo para leer fuera de línea, esta copia puede funcionar bastante bien.