跳至主要内容

python 之 Requests


https://requests.readthedocs.io/zh_CN/latest/user/quickstart.html
使用 r.content 来找到编码,然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了

import requests
url = 'https://www.baidu.com'

# 传递 URL 参数
# 想为 URL 的查询字符串(query string)传递某种数据。如果你是手工构建 URL,那么数据会以键/值对的形式置于 URL 中,跟在一个问号的后面。例如, httpbin.org/get?key=val
# Requests 允许你使用 params 关键字参数,以一个字符串字典来提供这些参数
payload = {'wd':'python'}
r = requests.get(url, params=payload)
print(dir(r))
print(r.url)
print(r.content)
print(r.encoding)
print(r.text)
print(r.headers)   #以一个 Python 字典形式展示的服务器响应头
# r.headers['Content-Type']
# r.headers.get('content-type')
print(r.cookies)

with open("requests_results.html", "wb") as f:
    f.write(r.content)
    
print(r.json)

# 检查请求是否成功
print(r.raise_for_status())
print(r.status_code)  #响应状态码

# 将文本流保存到文件 filename, chunk_size
with open(filename, 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

# 定制请求头
# 如果你想为请求添加 HTTP 头部,只要简单地传递一个 dict 给 headers 参数就可以了
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)

# 超时
# timeout 仅对连接过程有效,与响应体的下载无关。 timeout 并不是整个下载响应的时间限制,而是如果服务器在 timeout 秒内没有应答,将会引发一个异常(更精确地说,是在 timeout 秒内没有从基础套接字上接收到任何字节的数据时
r = requests.get('http://github.com', timeout=0.001)



import requests

url = 'https://www.baidu.com'
payload = {'wd':'python'}
r = requests.get(url, params=payload)
print(dir(r))
print(r.url)
print(r.content)
print(r.headers)
print(r.cookies)
with open("requests_results.html", "wb") as f:
    f.write(r.content)
-------------------------------------------------
提交Web表单

import urllib.request
import urllib.parse
import webbrowser

data = urllib.parse.urlencode({'q': 'Python'})
url = 'http://duckduckgo.com/html/'
full_url = url + '?' + data
response = urllib.request.urlopen(full_url)
with open("results.html", "wb") as f:
    f.write(response.read())

webbrowser.open("results.html")


爬取asp网页中的http链接

方法一:浏览器

在浏览器中右键选择检查元素,根据需要在 Console 中复制粘贴以下代码即可提出 URLs,然后右键另存为(save as)log,用excel打开导出的log文本文件,分隔符号


##### Code for URL Extraction with Anchor Text (COLOURED)(works for chrome/firefox)
var urls=$$('a');for(url in urls){console.log("%c#"+url+" - %c"+urls[url].innerHTML +" -- %c"+urls[url].href,"color:red;","color:green;","color:blue;");}


##### Code for URL Extraction with Anchor Text (IE/Edge)
var urls=$$('a');for(url in urls){console.log("#"+url+" - "+urls[url].innerHTML +" -- "+urls[url].href)}


##### Code for URL Extraction
urls = $$('a'); for (url in urls) console.log ( urls[url].href );


####
for(var a of document.getElementsByTagName('a')){
console.log(a.href)
}


爬虫代码

方法二:示例一


# requests是一个Python HTTP库,目标是使HTTP请求更简单,更人性化
import requests

# 导入正则表达式
import re

# Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库
from bs4 import BeautifulSoup

# pandas为Python编程语言提供高性能,易于使用的数据结构和数据分析工具
import pandas as pd

# 定义url地址
url = 'http://www.aisino.com/links.asp'
res = requests.get(url)

# 如果header中存在charset字段,则放问的服务器对它资源的编码方式是有要求的
# 可以使用r.encoding 来获取
# 如果header中不存在charset字段,则认为默认编码为ISO-8859-1,此编码不能解析中文
# res.encoding:从HTTP header中猜测的响应内容编码方式
# res.apparent_encoding:根据网页内容分析出的编码方式
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text,'lxml')

# 通过css选择器属性的值来查找:
# links = soup.select('a[href^="http"]')
# links = soup.select('a[title$="有限公司"]')

# find_all( name , attrs , recursive , text , **kwargs )可以添加多个参数
# find_all() 方法将返回文档中符合条件的所有tag
links = soup.find_all('a',href=re.compile("http"),target="_blank",title=True)
# links = soup.find_all(title=re.compile("公司$"))

# 创建name_list和url_list空列表
name_list = []
url_list = []

for link in links:
#     print(link.get('href') +'\t'+ link['title'])

# append()方法用于在列表末尾添加新的对象
    url_list.append(link.get('href'))
    name_list.append(link['title'])
 
#创建DataFrame对象的数据可以为列表,数组和字典,列名和索引为列表对象
df1 = pd.DataFrame(name_list,columns=['公司名称'])
df2 = pd.DataFrame(url_list,columns=['网址'])

#pd.concat()沿特定轴axis(0:index,1:columns;默认0)连接pandas对象
df = pd.concat([df1,df2],axis=1)
df.to_excel(r'C:\Users\DANG\Desktop\航天信息各产品公司网站清单.xlsx')


示例二

# -*- coding:utf-8 -*-
import requests
import re
from bs4 import BeautifulSoup

url = 'http://www.aisino.com/links.asp'
res = requests.get(url)
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text,'lxml')
# links = soup.select('a[href^="http"]')
# links = soup.select('a[title$="有限公司"]')
links = soup.find_all('a',href=re.compile("http"),target="_blank",title=True)
for link in links:
        print(link.get('href'))
        print(link.get('title'))



示例三

import requests
import re
# 获取网页内容
url = 'http://www.aisino.com/links.asp'
r = requests.get(url)
data = r.text

# 利用正则查找所有连接
link_list =re.findall(r"https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+",data)
# link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
for url in link_list:
#     if url.startswith('http://'):
#         print(url)
    print(url)


评论

此博客中的热门博文

Mongo 入门

https://pymongo.readthedocs.io/en/stable/tutorial.html https://www.mongodb.com/languages/python https://zhuanlan.zhihu.com/p/51171906 https://www.runoob.com/python3/python-mongodb.html https://blog.baoshuo.ren/post/luogu-spider/ https://hub.docker.com/_/mongo 安装 MongoDB $ docker search mongo 启动一个mongo服务器实例 $ docker run --name some-mongo -d mongo:tag some-mongo是您要分配给容器的名称,tag是指定您想要的 MongoDB 版本的标签 MongoDB 的默认数据目录路径是/data/db 如下: $ docker run -it -v mongodata:/data/db -p 27017:27017 --name mongodb --restart unless-stopped -d mongo 你应该让 MongoDB 在端口 27017 上运行,并且可以通过localhostWindows 和 Ubuntu 20.04 上的URL访问 http://localhost:27017/ -p 是 HOST_PORT:CLIENT_PORT  -P 随机端口 -p 27017:27017 :将容器的27017 端口映射到主机的27017 端口 -v mongodata:/data/db :将主机中当前目录下的db挂载到容器的/data/db,作为mongo数据存储目录 从另一个 Docker 容器连接到 MongoDB 镜像中的 MongoDB 服务器侦听标准 MongoDB 端口27017,因此通过 Docker 网络连接将与连接到远程mongod. 以下示例启动另一个 MongoDB 容器实例,并mongo针对上述示例中的原始 MongoDB 容器运行命令行客户端,从而允许您针对数据库实例执行 MongoDB 语句: $ docker run -it --network some-network --...

端口映射 公网访问内网

https://portforward.com/ Holer 通过安全隧道将位于NAT和防火墙之后的本地服务器暴露给公共Internet。 Holer是一个将原型中的应用映射到公网访问的端口映射软件,支持转发基于TCP协议的报文 https://github.com/wisdom-projects/holer 方式一:使用(公告)的holer映射或者开通holer服务,通过holer客户端软件经 holer服务器实现公网访问。 公开的holer映射详情如下: 访问密钥 访问域名 公网地址 本地地址 使用场景 HOLER_CLIENT-2F8D8B78B3C2A0AE holer65530.wdom.net holer.org:65530 127.0.0.1:8080 网页 HOLER_CLIENT-3C07CDFD1BF99BF2 holer65531.wdom.net holer.org:65531 127.0.0.1:8088 网页 HOLER_CLIENT-2A623FCB6E2A7D1D holer65532.wdom.net holer.org:65532 127.0.0.1:80 网页 HOLER_CLIENT-AF3E6391525F70E4 不适用 holer.org:65533 127.0.0.1:3389 远程桌面 HOLER_CLIENT-822404317F9D8ADD 不适用 holer.org:65534 127.0.0.1:22 SSH协议 HOLER_CLIENT-27DD1389DF1D4DBC 不适用 holer.org:65535 127.0.0.1:3306 数据库 使用Java版本的holer客户端 ①java 1.7或者更高版本 ②下载holer-client.zip 修改配置文件C:\holer-client\conf\holer.conf HOLER_ACCESS_KEY=HOLER_CLIENT-2A623FCB6E2A7D1D HOLER_SERVER_HOST=holer65532.wdom.net ③建议先双击运行C:\holer-client\bin\shutdown.bat,再双击运行C:\holer-client\bin\startup.bat...

安装和卸载软件(msi\exe)

如何判断一个软件是64位的还是32位的? 情况1、 未安装--右键安装程序查看属性,兼容性,勾选兼容模式查看最低适配是vista的是64位,反之32位, 不太准确 情况2、 已安装--运行软件,64位操作系统打开任务管理器看进程后缀名,带*32就是32位,反之64位 https://www.joci.net/xxbk/126251/ FileMon 和 Regmon 不再可供下载。从Windows 2000 SP4,Windows XP SP2,Windows Server 2003 SP1和Windows Vista开始的Windows版本上,它们已被 Process Monitor 取代 https://adamtheautomator.com/procmon/ Process Monitor 是Windows的高级监视工具,它显示实时文件系统,注册表和进程/线程活动。 它结合了两个旧的Sysinternals实用程序 Filemon 和  Regmon的功能 ,并添加了广泛的增强功能列表,包括丰富的和非破坏性的过滤,全面的事件属性(例如会话ID和用户名),可靠的过程信息,带有集成符号的完整线程堆栈支持每个操作,同时记录到文件等。 它独特的强大功能将使Process Monitor成为您的系统故障排除和恶意软件搜索工具包中的核心实用程序。 https://wikileaks.org/ciav7p1/cms/page_42991626.html HKLM\Software\Microsoft\Cryptography\MachineGuid Machine GUID/Cryptography GUID---该密钥通常用作机器的唯一标识符。它也已用于将两台计算机链接在一起-在某些情况下,计算机GUID是与设备(MP3播放器等)一起传递的。 Machine GUID不是唯一 https://docs.microsoft.com/zh-cn/windows/win32/properties/props-system-identity-uniqueid?redirectedfrom=MSDN UniqueID才是唯一 注册表 是存储系统和应用程序的设置信息 打开注册表的方式很简单:cmd中输入regedit 卸载路径只有一个 已安装32位的程序,如果是系统是32位...