python 之 Requests

https://requests.readthedocs.io/zh_CN/latest/user/quickstart.html

使用 r.content 来找到编码，然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了

import requests

url = 'https://www.baidu.com'

# 传递 URL 参数

# 想为 URL 的查询字符串(query string)传递某种数据。如果你是手工构建 URL，那么数据会以键/值对的形式置于 URL 中，跟在一个问号的后面。例如， httpbin.org/get?key=val

# Requests 允许你使用 params 关键字参数，以一个字符串字典来提供这些参数

payload = {'wd':'python'}

r = requests.get(url, params=payload)

print(dir(r))

print(r.url)

print(r.content)

print(r.encoding)

print(r.text)

print(r.headers) #以一个 Python 字典形式展示的服务器响应头

# r.headers['Content-Type']

# r.headers.get('content-type')

print(r.cookies)

with open("requests_results.html", "wb") as f:

f.write(r.content)

print(r.json)

# 检查请求是否成功

print(r.raise_for_status())

print(r.status_code) #响应状态码

# 将文本流保存到文件 filename, chunk_size

with open(filename, 'wb') as fd:

for chunk in r.iter_content(chunk_size):

fd.write(chunk)

# 定制请求头

# 如果你想为请求添加 HTTP 头部，只要简单地传递一个 dict 给 headers 参数就可以了

headers = {'user-agent': 'my-app/0.0.1'}

r = requests.get(url, headers=headers)

# 超时

# timeout 仅对连接过程有效，与响应体的下载无关。 timeout 并不是整个下载响应的时间限制，而是如果服务器在 timeout 秒内没有应答，将会引发一个异常（更精确地说，是在 timeout 秒内没有从基础套接字上接收到任何字节的数据时

r = requests.get('http://github.com', timeout=0.001)

import requests

url = 'https://www.baidu.com'
payload = {'wd':'python'}
r = requests.get(url, params=payload)
print(dir(r))

print(r.url)
print(r.content)
print(r.headers)
print(r.cookies)
with open("requests_results.html", "wb") as f:
    f.write(r.content)
-------------------------------------------------
提交Web表单

import urllib.request
import urllib.parse
import webbrowser

data = urllib.parse.urlencode({'q': 'Python'})
url = 'http://duckduckgo.com/html/'
full_url = url + '?' + data
response = urllib.request.urlopen(full_url)
with open("results.html", "wb") as f:
    f.write(response.read())

webbrowser.open("results.html")

爬取asp网页中的http链接

方法一：浏览器

在浏览器中右键选择检查元素，根据需要在 Console 中复制粘贴以下代码即可提出 URLs，然后右键另存为（save as）log，用excel打开导出的log文本文件，分隔符号

##### Code for URL Extraction with Anchor Text (COLOURED)(works for chrome/firefox)
var urls=$$('a');for(url in urls){console.log("%c#"+url+" - %c"+urls[url].innerHTML +" -- %c"+urls[url].href,"color:red;","color:green;","color:blue;");}

##### Code for URL Extraction with Anchor Text (IE/Edge)
var urls=$$('a');for(url in urls){console.log("#"+url+" - "+urls[url].innerHTML +" -- "+urls[url].href)}

##### Code for URL Extraction
urls = $$('a'); for (url in urls) console.log ( urls[url].href );

####
for(var a of document.getElementsByTagName('a')){
console.log(a.href)
}

爬虫代码

方法二：示例一

# requests是一个Python HTTP库，目标是使HTTP请求更简单，更人性化
import requests

# 导入正则表达式
import re

# Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库
from bs4 import BeautifulSoup

# pandas为Python编程语言提供高性能，易于使用的数据结构和数据分析工具
import pandas as pd

# 定义url地址
url = 'http://www.aisino.com/links.asp'
res = requests.get(url)

# 如果header中存在charset字段，则放问的服务器对它资源的编码方式是有要求的
# 可以使用r.encoding 来获取
# 如果header中不存在charset字段，则认为默认编码为ISO-8859-1,此编码不能解析中文
# res.encoding:从HTTP header中猜测的响应内容编码方式
# res.apparent_encoding：根据网页内容分析出的编码方式
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text,'lxml')

# 通过css选择器属性的值来查找:
# links = soup.select('a[href^="http"]')
# links = soup.select('a[title$="有限公司"]')

# find_all( name , attrs , recursive , text , **kwargs )可以添加多个参数
# find_all() 方法将返回文档中符合条件的所有tag
links = soup.find_all('a',href=re.compile("http"),target="_blank",title=True)
# links = soup.find_all(title=re.compile("公司$"))

# 创建name_list和url_list空列表
name_list = []
url_list = []

for link in links:
# print(link.get('href') +'\t'+ link['title'])

# append()方法用于在列表末尾添加新的对象
url_list.append(link.get('href'))
name_list.append(link['title'])

#创建DataFrame对象的数据可以为列表，数组和字典，列名和索引为列表对象
df1 = pd.DataFrame(name_list,columns=['公司名称'])
df2 = pd.DataFrame(url_list,columns=['网址'])

#pd.concat()沿特定轴axis(0:index,1:columns;默认0)连接pandas对象
df = pd.concat([df1,df2],axis=1)
df.to_excel(r'C:\Users\DANG\Desktop\航天信息各产品公司网站清单.xlsx')

示例二

# -*- coding:utf-8 -*-

import requests

import re

from bs4 import BeautifulSoup

url = 'http://www.aisino.com/links.asp'

res = requests.get(url)

res.encoding = res.apparent_encoding

soup = BeautifulSoup(res.text,'lxml')

# links = soup.select('a[href^="http"]')

# links = soup.select('a[title$="有限公司"]')

links = soup.find_all('a',href=re.compile("http"),target="_blank",title=True)

for link in links:

print(link.get('href'))

print(link.get('title'))

示例三

import requests

import re

# 获取网页内容

url = 'http://www.aisino.com/links.asp'

r = requests.get(url)

data = r.text

# 利用正则查找所有连接

link_list =re.findall(r"https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+",data)

# link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)

for url in link_list:

# if url.startswith('http://'):

# print(url)

print(url)

soloPython博客

搜索此博客