PYTHON 七月 31, 2019

6.request请求的简单使用

文章字数 7k 阅读约需 6 mins. 阅读次数 1000000

  • 概述:
    requests框架基于urllib封装的一个请求框架,、几乎包含urllib所有的请求功能,在其基础上进行了深度的拓展

  • 安装requests

    pip install requests

    ...
查看全文

PYTHON 七月 31, 2019

6.request请求的简单使用

文章字数 7k 阅读约需 6 mins. 阅读次数 1000000

  • 概述:
    requests框架基于urllib封装的一个请求框架,、几乎包含urllib所有的请求功能,在其基础上进行了深度的拓展

  • 安装requests

    pip install requests

  • requests的响应类
    res = requests.get(url)   #res即为resquests的响应类
    属性 说明
    encoding requests从响应的header自动猜测出响应页面编码方式,该值默认为ISO-8859-1
    apparent_encoding requests...
查看全文

PYTHON 七月 26, 2019

5.懒加载及自动化测试框架

文章字数 8.1k 阅读约需 7 mins. 阅读次数 1000000


懒加载技术:用的时候再加载


  • 懒加载的要点如下:

    1. 图片进入可视区域之后请求图片资源;

    2. 对于电商等图片较多,页面很长的业务场景很适用;

    3. 可以减少无效资源的加载;

    4. 并发加载的资源过多会阻塞js的加载,影响网站的正常使用;

import urllib.request
import urllib....
查看全文

PYTHON 七月 26, 2019

4.常用的数据解析方式

文章字数 19k 阅读约需 17 mins. 阅读次数 1000000


正则表达式解析


  • 单字符:

      . : 除换行以外所有字符
      [] :[aoe][a-w] 匹配集合中任意一个字符
      \d :数字  [0-9]
      \D : 非数字
      \w :数字、字母、下划线、中文
      \W : 非\w
      \s :所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
      \S : 非空白
  • 数量修饰:

      * : 任意多次  >=0
      + : 至少1次   >=1
      ? : 可有可无  0次或者1次
      {m} :固定m次 hello{3,}
      {m,} :至少m次
      {...
查看全文

PYTHON 七月 26, 2019

3.登录相关、代理

文章字数 5.5k 阅读约需 5 mins. 阅读次数 1000000


URLError


URLError是HTTPError的父类型:

出现URLError的错误原因:

  • 没有网
  • 服务器连接失败
  • 找不到指定的服务器
import urllib.request
import urllib.error

url = 'http://www.basjdfkjgkfjgfjhd.com.cn'
try:
    re = urllib.request.urlopen(url)
    print('here')
except urllib.error....
查看全文

PYTHON 七月 18, 2019

2.根据不同请求爬取数据(get、post)

文章字数 8.5k 阅读约需 8 mins. 阅读次数 1000000


urllib库


  • urllib:python自带的一个包。模拟浏览器发送请求
  • Python2:urllib2 urllib
  • Python3:urllib.parse urllib.request
#最简单的爬虫程序
#1.指定一个url
#2.编写爬虫程序模拟浏览器发起一个请求
#3.获取数据,解析数据
import urllib.request
import urllib.parse
url='http://www.baidu.com/'
response=urllib....
查看全文

PYTHON 七月 18, 2019

1.爬虫入门了解

文章字数 3.6k 阅读约需 3 mins. 阅读次数 1000000


爬虫概念


什么是爬虫?

  • 概念:编写程序去互联网上爬取数据的过程

哪些语言可以实现爬虫?

  • java
  • php
  • c/c++
  • python:提供了无限的模块

爬虫的分类

  • 聚焦爬虫:“抓取系统”
  • 通用爬虫:根据制定的需求获取网页中制定的数据值
  • 问题:爬虫程序如何获取网站中的数据值?
    • 主动提交url
    • 搜索引擎公司会和DNS服务商进行合作
  • robots.txt:口头的协议。如果门户网站指定了该协议后,表示该门户拒绝搜索引擎和爬虫程序爬去网站中的数据。

http协议


附:HTTP...

查看全文
0%