Python爬虫的环境搭建


介绍Python爬虫。

〇、前言

近年来,用Python做爬虫的大为流行,用Python分析数据亦极为方便,因此在Cola的力荐下,对此做了学习。

一、Linux下环境安装

1.1 Anaconda的安装

首先到官网下载最新版的Anaconda安装包,然后执行下列命令进行安装:

1
2
cd 安装包存放路径
bash Anaconda2-2019.10-Linux-x86_64.sh

在安装过程中按照提示一路回车或yes,在最后问是否要初始化的时候选择no。验证安装成功:

1
2
cd ~/anaconda3/bin/
source activate

如果终端中自己的用户名前面出现了(base)就表示安装成功。

1.2 创建虚拟环境

  1. 执行sudo gedit ~/.bashrc,打开后在其中添加下列语句:

    1
    export PATH=/home/(your_user_name)/anaconda3/bin:$PATH

    保存关闭后,执行source ~/.bashrc激活。

  2. 执行conda create -n your_env_name python=X.X(2.7、3.7等)创建虚拟环境,例如conda create -n test python=3.7

  3. 进入虚拟环境。依次执行下列命令:

    1
    2
    source activate
    conda activate test

    在终端中自己的用户名前依次显示(base)(test)表示进入了自己的虚拟环境,参照下图。

  4. 如果需要退出虚拟环境,可以执行:

    1
    conda deactivate

1.3 安装requests

在第1.2节第3步进入虚拟环境后,执行pip install requests安装requests。

01

1.4、爬虫示例

创建一个.py文件,以简单地爬取百度为例,向其中写入下面内容:

1
2
3
4
import requests
response = requests.get('https://www.baidu.com')
response.encoding = response.apparent_encoding # 转换为自动编码,防止乱码
print(response.text)

爬取结果如下:
02

二、Windows下环境搭建

2.1 安装Anaconda

https://www.anaconda.com/distribution/#windows

参考方法 :

https://www.jianshu.com/p/62f155eb6ac5

注意:

  • 暂时地关闭杀毒软件,并在安装程序完成之后再打开。
  • 如果在安装时选择只为“我这个用户”安装。
  • 在“Advanced Installation Options”中不要勾选“Add Anaconda to my PATH environment variable.” 否则会影响其他程序的使用。
  • 勾选“Register Anaconda as my default Python 3.7”,除非你打算使用多个版本的Anaconda或者多个版本的Python。

2.2 启动网页编辑器 Jupyter

图片

在home下新建Jupyter文档

图片

在Jupyter目录下新建.py文件

图片

2.3 尝试get网页内容

1
2
3
import requests
r = requests.get('http://www.roboticsproceedings.org/')
print(r.text)

图片

参考链接

  1. conda: command not found解决办法
  2. Anaconda使用conda activate激活环境出错
  3. linux创建conda虚拟环境
------ 本文结束感谢您的阅读------
Donate a cup of cola?