Comando.- wget

GNU Wget es una herramienta de Software Libre que permite la descarga de contenidos desde servidores web de una forma simple. Su nombre deriva de World Wide Web(w), y de «obtener» (en inglés get), esto quiere decir: obtener desde WWW. Actualmente soporta descargas mediante los protocolos HTTP, HTTPS y FTP. Wikipedia

Notas.- a) El comando wget hace la descarga en el nivel de directorios que tengan la shell. Normalmente se hace en el home del usuario porque cuando abrimos la shell ahí esta por defecto. Pero puede ser en cualquier carpeta, primero hay que entrar en ella y luego llamar wget. Por ejemplo es si entro a mi escritorio con cd Desktop y luego llamo el wget los archivos se bajan en mi desktop. b) El home del usuario es /home/[Nombre_Usuario], el mio sería /home/travesuras. c) Algo más, este tutorial esta dirigido a linuxeros, con otros sistemas operativos no tengo idea.

Aclaración.- ¡Como detesto esto! había dicho que wget se descargaba en el home del usuario y no es cierto. Lo hace en el nivel jerárquico de los directorios que tengan la shell. Si estoy en documentos lo va hacer ahí, en musica si estoy en ese nivel, etc.

Algunas opciones:

 

  -c --continue                     Termina una descarga incompleta.
  -k --convert-links                Convierte las ligas de los
                                         documentos HTML de absolutas
                                         (http://dominio.com/images/
                                         algo.gif) a relativas 
                                         (images/algo.gif)
  -r --recursive                    Descarga recursivamente una 
                                         carpeta o sitio.
  -p --page-requisites              Obtiene todas las imagenes, 
                                         etc. necesarias para 
                                         mostrar la página web.
  -U --user-agent=AGENT             Hace que el servidor con el
                                         sitio web que se esta 
                                         bajando nos identifique
                                         con un navegador en
                                         particular.
  -i archivo --input-file=archivo   Lee los URL desde un archivo.
  -w segundos --wait=segundos       Tiempo de espera entre un 
                                         intento de descarga y el
                                         subsecuente.
  --wait=SEGUNDOS                   Establecer el límite de tiempo
                                         de conexión a SEGUNDOS.
  --limit-rate=RATIO                Limita el ratio de descarga
                                         a RATIO.
  -l --evel=NUMERO                  Número máximo de niveles de
                                         recursión (inf ó 0 para 
                                         infinitos).
  -np --no-parent                   No subir al directorio padre.
  -o --output-file=ARCHIVO          Escribe los mensajes en ARCHIVO.
  -t --tries=NUMERO                 Ajusta el NUMERO de intentos 
                                         (0=ilimitado).
  --retry-connrefused               Reintenta aunque la conexion sea
                                         rechazada.

 

Importante: No debe de abusarse de esta herramienta,
con ella se puede llegar a sobrecargar los servidores
causando denegación del servicio.

 

Para ejecutarse en la terminal

Sintaxis básica

wget [url que quieren bajar]

Ejemplo:

wget https://travesuras.wordpress.com

Haciendo uso de las opciones:

wget [opciones] [url que quieren bajar]

Ejemplo:

wget --wait=22 --limit-rate=80K -c -r -k -p -U Mozilla https://travesuras.wordpress.com

Se puede de a varios y con distintos protocolos

wget [Url tipo http] [Url tipo ftp]

Ejemplo:

wget https://travesuras.wordpress.com ftp://travesuras.wordpress.com

O de solo un tipo de archivos

wget [url/]*.[extensión]

Ejemplo:

wget https://travesuras.wordpress.com/*.jpg

Cuando quiero bajar varias páginas web, hago el listado en un archivo y hago uso de la opción -i. Los archivos de texto (.txt) son una opción segura. Cada url debe de ocupar una línea.

wget -i [ubicación y nombre del archivo con todo y extensión]

Ejemplo:

wget -i /home/travesuras/Desktop/enlaces.txt

El archivo enlaces.txt cada url ocupa una línea tendria el siguiente contenido:

https://travesuras.wordpress.com/2008/09/03/12/
https://travesuras.wordpress.com/2008/11/20/1-7/
https://travesuras.wordpress.com/2008/11/22/1-10/
https://travesuras.wordpress.com/2008/12/18/1-17/
https://travesuras.wordpress.com/2008/12/29/1-19/

 

 

 

http://es.wikipedia.org/wiki/Wget
http://www.geocities.com/escajarro/tutors/wget/jswget.htm Genera los comandos para wget al llenar el formulario
http://siesgratrisdame2.wordpress.com/2008/10/19/descargar-archivos-con-wget
La ayuda que viene con la terminal. Comando:

wget --help

man -t wget | ps2pdf - > Desktop/man-wget.pdf

2 thoughts on “Comando.- wget

  1. hola… hago una pregunta… necesito programar para que descargue un archivo.. hasta ahi todo bien… el tema es que necesito que lo descargue cierta cantidad de tiempo… ej: programarlo para que descargue durante 30 segundos y despues corte… se puede? gracias!

    1. Le di una ojeada al manual, tecleando en la terminal:

      man wget

      Hay varias opciones que tienen timeout, pues a leerlo y ver cual te conviene.

      Usando la opción -T o --timeout la descarga se corta después de la cantidad de segundos que le indiques.

      Ejemplo:

      wget -T 5 http://travesuras.wordpress.com

      wget --timeout=5 http://travesuras.wordpress.com

      Te corto y pego del manual

      -T seconds

      --timeout=seconds

      Set the network timeout to seconds seconds. This is equivalent to specifying --dns-timeout, --connect-timeout, and --read-timeout, all at the same time.

      When interacting with the network, Wget can check for timeout and abort the operation if it takes too long. This prevents anomalies like hanging reads and infinite connects. The only timeout enabled by default is a 900-second read timeout. Setting a timeout to 0 disables it altogether. Unless you know what you are doing, it is best not to change the default timeout settings.

      All timeout-related options accept decimal values, as well as subsecond values. For example, 0.1 seconds is a legal (though unwise) choice of timeout. Subsecond timeouts are useful for checking server response times or for testing network latency.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s