Python环境搭建以及Splinter爬虫基本操作

大自然的搬运工

Python环境搭建

    万事开头难,环境搭建虽然不难但确是最容易为以后写码埋下祸根的一步,例如环境变量的配置不正确会导致以后写码时出现莫名其妙的问题。

    在整合了网上一些环境配置的教程后,找到了最简单的环境搭建方法:

  MacBook

    在基于Unix的MacOS中是自带Python 2.7的,所以不需要下载就可以运行.py文件。但出于语法上便利性的考虑推荐大家在Python官网下载Python 3.7.6(进入官网后到最下方的Files中选择对应的系统)并直接打开安装包即可,不需要配置其他任何设置。安装完成后在自带的Terminal(控制台)中输入pip3 –version来检查是否安装正确。若出现以下提示就代表安装完成:

安装完成后在应用中找到IDLE就可开始写Python程序啦

  Windows

相比基于Unix的MacOS,在Windows上搭建环境就会稍显繁琐,因为Windows没有自带Python环境所以我们一定要从官网下载Python才能运行.py文件。进入之前提到过的的下载页面后,在Windows的下载选项中选择下载executable installer(x86表示是 32 位的机子,x86-64代表64位的机子)。下载完成后,打开安装包后记得勾选 Add Python 3.7 to PATH 来添加环境变量到系统。安装完成后按win+r打开运行,输入cmd调出命令提示符,在命令提示符中输入python,若出现以下提示就代表安装完成:

安装完成后在开始中搜索IDLE就可开始写Python程序啦

Python爬虫

    环境搭建完成后我们就可以愉快地和代码交朋友啦,想想都有点小激动呢!说到编程,相信爬虫一直都是大家津津乐道的东西。因为它简单实用又能炫技

    那么说说这次我们使用相对于urllib等更简单的splinter模块来实现爬虫的功能。因为爬虫爬取网站会消耗网站的资源,所以许多的网站有防止非法爬取。像urllib等模块要实现cookie内容的匹配,浏览器的模拟,post/get模拟等十分麻烦,而splinter则是调用浏览器实实在在进行浏览器的操作,省去了繁琐的模拟用户行为的代码,从而让我们能专心实现爬虫的目的而不是花时间在模拟人为操作上。

Splinter的配置
    在控制台中输入 pip3 install splinter 即可下载安装到Python中。当我们需要用到splinter时只需要在IDE中 import splinter 即可。

    接下来我们需要下载 WebDriver(浏览器驱动)来实现代码对浏览器的自动操作。Splinter中默认使用Firefox(火狐浏览器)来访问网站(也需要下载Firefox的geckodriver),如果想要改为Chrome(谷歌浏览器)需要另外下载和电脑上安装的Chrome对应版本chromedriver。

注意WebDriver的版本一定要和浏览器的版本匹配,否则会报错!

    

    下载完成后解压的exe文件放在自己喜欢的目录(英文目录)下,就可以开始写自己的爬虫了!

Splinter的基本访问操作
首先我们来测试一些之前的安装是否正确,在IDE中写入:

#从splinter.browser导入Browser模块from splinter.browser import Browser#创建一个浏览器对象,使用火狐浏览器(默认),drive路径为...b = Browser(excutable_path='...')#访问百度b.visit("http://www.baidu.com/")

如果能正常的打开Firefox浏览器(默认)并访问百度则代表一切就绪。

但如果出现类似报错:

Traceback (most recent call last):
UnboundLocalError: local variable 'e' referenced before assignment

表示找不到浏览器对应的WebDriver或Driver的版本不匹配。

如果想要使用Chrome来做爬虫则只需要在代码中指定:

from splinter.browser import Browser

#指定b使用谷歌浏览器,chromedriver的路径为…

b = Browser(‘chrome’, excutable_path=’…’)

b.visit("http://www.baidu.com/")

未经允许不得转载:大自然的搬运工 » Python环境搭建以及Splinter爬虫基本操作

赞 (0)

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址