O que é urllib?
urllib é um módulo Python que pode ser usado para abrir URLs. Ele define funções e classes para ajudar nas ações de URL.
Com Python, você também pode acessar e recuperar dados da Internet como XML, HTML, JSON, etc. Você também pode usar Python para trabalhar com esses dados diretamente. Neste tutorial, veremos como podemos recuperar dados da web. Por exemplo, aqui usamos um URL de vídeo guru99, e vamos acessar este URL de vídeo usando Python, bem como imprimir o arquivo HTML deste URL.
Neste tutorial vamos aprender
- Como abrir URL usando Urllib
- Como ler o arquivo HTML para o seu URL em Python
Como abrir URL usando Urllib
Antes de executarmos o código para conectar aos dados da Internet, precisamos importar a instrução para o módulo de biblioteca de URL ou "urllib".
- Importar urllib
- Defina sua função principal
- Declare a variável webUrl
- Em seguida, chame a função urlopen na biblioteca lib URL
- O URL que estamos abrindo é o tutorial guru99 no youtube
- A seguir, imprimiremos o código do resultado
- O código de resultado é recuperado chamando a função getcode na variável webUrl que criamos
- Vamos converter isso em uma string, para que possa ser concatenada com nossa string "código de resultado"
- Este será um código HTTP normal "200", indicando que a solicitação http foi processada com sucesso
Como obter um URL de formulário de arquivo HTML em Python
Você também pode ler o arquivo HTML usando a "função de leitura" no Python e, ao executar o código, o arquivo HTML aparecerá no console.
- Chame a função de leitura na variável webURL
- A variável de leitura permite ler o conteúdo dos arquivos de dados
- Leia todo o conteúdo do URL em uma variável chamada dados
- Execute o código - ele imprimirá os dados no formato HTML
Aqui está o código completo
Exemplo de Python 2
## read the data from the URL and print it#import urllib2def main():# open a connection to a URL using urllib2webUrl = urllib2.urlopen("https://www.youtube.com/user/guru99com")#get the result code and print itprint "result code: " + str(webUrl.getcode())# read the data from the URL and print itdata = webUrl.read()print dataif __name__ == "__main__":main()
Exemplo de Python 3
## read the data from the URL and print it#import urllib.request# open a connection to a URL using urllibwebUrl = urllib.request.urlopen('https://www.youtube.com/user/guru99com')#get the result code and print itprint ("result code: " + str(webUrl.getcode()))# read the data from the URL and print itdata = webUrl.read()print (data)