跳至主要内容

python 之 Requests


https://requests.readthedocs.io/zh_CN/latest/user/quickstart.html
使用 r.content 来找到编码,然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了

import requests
url = 'https://www.baidu.com'

# 传递 URL 参数
# 想为 URL 的查询字符串(query string)传递某种数据。如果你是手工构建 URL,那么数据会以键/值对的形式置于 URL 中,跟在一个问号的后面。例如, httpbin.org/get?key=val
# Requests 允许你使用 params 关键字参数,以一个字符串字典来提供这些参数
payload = {'wd':'python'}
r = requests.get(url, params=payload)
print(dir(r))
print(r.url)
print(r.content)
print(r.encoding)
print(r.text)
print(r.headers)   #以一个 Python 字典形式展示的服务器响应头
# r.headers['Content-Type']
# r.headers.get('content-type')
print(r.cookies)

with open("requests_results.html", "wb") as f:
    f.write(r.content)
    
print(r.json)

# 检查请求是否成功
print(r.raise_for_status())
print(r.status_code)  #响应状态码

# 将文本流保存到文件 filename, chunk_size
with open(filename, 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

# 定制请求头
# 如果你想为请求添加 HTTP 头部,只要简单地传递一个 dict 给 headers 参数就可以了
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)

# 超时
# timeout 仅对连接过程有效,与响应体的下载无关。 timeout 并不是整个下载响应的时间限制,而是如果服务器在 timeout 秒内没有应答,将会引发一个异常(更精确地说,是在 timeout 秒内没有从基础套接字上接收到任何字节的数据时
r = requests.get('http://github.com', timeout=0.001)



import requests

url = 'https://www.baidu.com'
payload = {'wd':'python'}
r = requests.get(url, params=payload)
print(dir(r))
print(r.url)
print(r.content)
print(r.headers)
print(r.cookies)
with open("requests_results.html", "wb") as f:
    f.write(r.content)
-------------------------------------------------
提交Web表单

import urllib.request
import urllib.parse
import webbrowser

data = urllib.parse.urlencode({'q': 'Python'})
url = 'http://duckduckgo.com/html/'
full_url = url + '?' + data
response = urllib.request.urlopen(full_url)
with open("results.html", "wb") as f:
    f.write(response.read())

webbrowser.open("results.html")


爬取asp网页中的http链接

方法一:浏览器

在浏览器中右键选择检查元素,根据需要在 Console 中复制粘贴以下代码即可提出 URLs,然后右键另存为(save as)log,用excel打开导出的log文本文件,分隔符号


##### Code for URL Extraction with Anchor Text (COLOURED)(works for chrome/firefox)
var urls=$$('a');for(url in urls){console.log("%c#"+url+" - %c"+urls[url].innerHTML +" -- %c"+urls[url].href,"color:red;","color:green;","color:blue;");}


##### Code for URL Extraction with Anchor Text (IE/Edge)
var urls=$$('a');for(url in urls){console.log("#"+url+" - "+urls[url].innerHTML +" -- "+urls[url].href)}


##### Code for URL Extraction
urls = $$('a'); for (url in urls) console.log ( urls[url].href );


####
for(var a of document.getElementsByTagName('a')){
console.log(a.href)
}


爬虫代码

方法二:示例一


# requests是一个Python HTTP库,目标是使HTTP请求更简单,更人性化
import requests

# 导入正则表达式
import re

# Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库
from bs4 import BeautifulSoup

# pandas为Python编程语言提供高性能,易于使用的数据结构和数据分析工具
import pandas as pd

# 定义url地址
url = 'http://www.aisino.com/links.asp'
res = requests.get(url)

# 如果header中存在charset字段,则放问的服务器对它资源的编码方式是有要求的
# 可以使用r.encoding 来获取
# 如果header中不存在charset字段,则认为默认编码为ISO-8859-1,此编码不能解析中文
# res.encoding:从HTTP header中猜测的响应内容编码方式
# res.apparent_encoding:根据网页内容分析出的编码方式
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text,'lxml')

# 通过css选择器属性的值来查找:
# links = soup.select('a[href^="http"]')
# links = soup.select('a[title$="有限公司"]')

# find_all( name , attrs , recursive , text , **kwargs )可以添加多个参数
# find_all() 方法将返回文档中符合条件的所有tag
links = soup.find_all('a',href=re.compile("http"),target="_blank",title=True)
# links = soup.find_all(title=re.compile("公司$"))

# 创建name_list和url_list空列表
name_list = []
url_list = []

for link in links:
#     print(link.get('href') +'\t'+ link['title'])

# append()方法用于在列表末尾添加新的对象
    url_list.append(link.get('href'))
    name_list.append(link['title'])
 
#创建DataFrame对象的数据可以为列表,数组和字典,列名和索引为列表对象
df1 = pd.DataFrame(name_list,columns=['公司名称'])
df2 = pd.DataFrame(url_list,columns=['网址'])

#pd.concat()沿特定轴axis(0:index,1:columns;默认0)连接pandas对象
df = pd.concat([df1,df2],axis=1)
df.to_excel(r'C:\Users\DANG\Desktop\航天信息各产品公司网站清单.xlsx')


示例二

# -*- coding:utf-8 -*-
import requests
import re
from bs4 import BeautifulSoup

url = 'http://www.aisino.com/links.asp'
res = requests.get(url)
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text,'lxml')
# links = soup.select('a[href^="http"]')
# links = soup.select('a[title$="有限公司"]')
links = soup.find_all('a',href=re.compile("http"),target="_blank",title=True)
for link in links:
        print(link.get('href'))
        print(link.get('title'))



示例三

import requests
import re
# 获取网页内容
url = 'http://www.aisino.com/links.asp'
r = requests.get(url)
data = r.text

# 利用正则查找所有连接
link_list =re.findall(r"https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+",data)
# link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
for url in link_list:
#     if url.startswith('http://'):
#         print(url)
    print(url)


评论

此博客中的热门博文

学习地址

清华大学计算机系课程攻略 https://github.com/PKUanonym/REKCARC-TSC-UHT 浙江大学课程攻略共享计划 https://github.com/QSCTech/zju-icicles https://home.unicode.org/ 世界上的每个人都应该能够在手机和电脑上使用自己的语言。 http://codecanyon.net   初次看到这个网站,小伙伴们表示都惊呆了。原来代码也可以放在网上卖的?!! 很多coder上传了各种代码,每个代码都明码标价。看了下销售排行,有的19刀的卖了3万多份,额di神啊。可以看到代码的演示效果,真的很漂亮。代码以php、wordpress主题、Javascript、css为主,偏前台。 https://www.lintcode.com/ 算法学习网站,上去每天刷两道算法题,走遍天下都不怕。 https://www.codecademy.com/ 包含在线编程练习和课程视频 https://www.reddit.com/ 包含有趣的编程挑战题,即使不会写,也可以查看他人的解决方法。 https://ideone.com/ 在线编译器,可运行,可查看代码示例。 http://it-ebooks.info/ 大型电子图书馆,可即时免费下载书籍。 刷题 https://github.com/jackfrued/Python-100-Days https://github.com/kenwoodjw/python_interview_question 面试问题 https://github.com/kenwoodjw/python_interview_question https://www.journaldev.com/15490/python-interview-questions#python-interpreter HTTP 身份验证 https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Authentication RESTful 架构详解 https://www.runoob.com/w3cnote/restful-architecture.html https://www.rosettacode.org/wiki/Rosetta_C...

PDF处理

虚拟pdf打印机 pdfFactory  https://fineprint.com PDFCreator  https://www.pdfforge.org 开源 cutepdf https://www.cutepdf.com/index.htm Doro PDF Writer http://www.the-sz.com/products/doro PdfScribe  https://github.com/stchan/PdfScribe/releases pdf阅读器 Sumatra PDF https://www.sumatrapdfreader.org/ 为什么 Python 用于 PDF 处理  如您所知,PDF 处理属于文本分析。 大多数文本分析库或框架仅使用 Python 设计。 这为文本分析提供了优势。 还有一件事,您永远无法在现有的机器学习或自然语言处理框架中直接处理 pdf。 除非他们为此证明了显式接口。 我们必须先将pdf转换为文本。 我们可以使用下述任何库轻松实现这一点。 在线转换pdf Sejda https://www.sejda.com/pdf-editor 每个文档 200 页的免费限制 https://www.pdf2go.com/ https://tools.pdfforge.org/extract-text PDF24 Tools https://tools.pdf24.org/zh/ 免费且易于使用的在线PDF工具 FreeOCR http://www.paperfile.net/ 适用于Windows的免费光学字符识别软件,支持大多数Twain扫描仪的扫描,还可以打开大多数扫描的PDF和多页Tiff图像以及流行的图像文件格式,FreeOCR输出纯文本,可以直接导出为Microsoft Word格式。 不支持中文 wkhtmltopdf 和 wkhtmltoimage 是使用 QT Webkit 渲染引擎将 HTML 渲染为 PDF 和各种图像格式的命令行工具。这些完全“无头”运行,不需要显示或显示服务。 https://wkhtmltopdf.org/ django-wkhtmltopdf 允许 Django 站点输出动态 PDF。它利用 wkhtmltopdf 库,允许您使用您知道...

安卓 之 apk下载、ADB、 scrcpy

Apk下载 下载离线安装apk https://www.apkmirror.com/ 免费和安全的Android APK下载 https://apkpure.com/ 被暴雷,有植入 https://apps.evozi.com/apk-downloader/ 可以将Google Play( https://play.google.com )中的apk文件所在网址直接下载到台式机和设备上 https://f-droid.org/zh_Hans/ F-Droid 是一个 Android 平台上 FOSS(Free and Open Source Software,自由开源软件)的目录,并提供下载安装支持。使用客户端可以更轻松地浏览、安装及跟进设备上的应用更新。 https://gitlab.com/AuroraOSS/AuroraStore Aurora商店 是Google Play商店的非官方FOSS客户,设计典雅。 Aurora商店不仅下载,更新和搜索Play商店等应用 https://github.com/OpenTracksApp/OpenTracks OpenTracks是一款运动跟踪应用程序,完全尊重您的隐私。 Tasker https://tasker.joaoapps.com/ 是一款适用于Android的应用程序,它可以根据用户定义的配置文件中的上下文、可点击或定时的主屏幕小部件来执行任务。它无需root或特殊的主屏幕就能控制Android设备。 AsciiCam AsciiCam可以从您的相机指向的任何位置实时生成ASCII图像。选择黑白,原色或全彩,拍照,并将其作为图像或HTML共享。您还可以在库中创建ASCII版本的图片,并且每次使用标准相机应用程序拍摄照片时,也可以选择自动生成ASCII版本。 AsciiCam是完全免费和开源的。 Apk1安装器 优化微信apk文件接收体验。 微信收到apk文件会加 ".1" 后缀导致打不开,必须自己手动找到文件重命名去掉后缀。 使用本安装器就可以在微信内,潇洒地点击直接打开。甚至可以在安装器内浏览apk1文件历史接收记录。 ADB ADB全名是 Android Debug Bridge,是开发或使用Android时很常用的工具。可以从电脑通过USB连线到Android手机上 https:...