勤学思培训网CSDPAL
  • 总算知道python爬虫入门常用库

    列表的元素是可以变动的,比如增加、删除、修改,不过需要注意的是,列表的元素不是基本数据类型,都是一个个的标识符引用对象。以下是小编为你整理的python爬虫入门常用库

    如图,先定义一个列表

    a = [123,'456']

    一个是int类型,一个是str类型

    添加一个元素,使用append

    比如(789)

    括号中的就是要添加的元素


    [图片0]

    在指定位置添加元素,使用insert

    比如(1,'ABC')

    括号中前面的是指定位置,后面的是要插入添加的元素

    注意:位置从0开始,比如当前[123, '456', 789]

    123是位置0,'456'是位置1,789是位置3

    insert(1.'ABC')的意思是,在位置1插入'ABC',而位置1和之后的都往后挪动一位

    先定义一个列表

    a = [123, 'ABC', '456', 789, 123]

    删除指定对象,使用remove

    比如:(123)

    注意:它不会把列表里面的所有123都删,只会删除最前面的与一个

    3

    如果你删除的指定对象不存在的话,那么会报错

    比如:列表没有999这个元素,你非要删除这个元素的话,会报错

    如何去下载

    百度搜索“Python”,在官网中选择,在选择列表项上双击即可下载;(Ps:虽然现在Python已经出到版本,但由于版本差别不会特别大,而且公司项目使用的是旧版本的,所以还是先从开始)

    双击下载好的,进入安装界面,选择软件的使用用户,默认下一步即可;

    设置的安装目录,一般都为系统根目录下(C盘),默认即可;

    进入程序组件安装界面,拉取下拉框,选择安装组件“Add to Path”,然后点击“Next”,默认安装即可;

    不多时,即可看到安装完成界面

    此外,由安装了组件“Add to Path”也不需再配置Python的环境变量,它已经自动配置好了,查看如图可知;

    测试是否已经正确安装完成,按下“win”+“R”键,输入“cmd”,点击确定,在弹出的命令行窗口中输入“Python”命令,即可看到电脑中已经安装好的Python;

    python的优点

    简单,python主张的是极简主义,学python就像在学英语一样。

    易学,学习python并不难,入门很快很简单,比c++,java容易多了。


    [图片1]

    开源,python是免费开源产品,你可以自由地发布python这个软件,不用担心盗版和侵权。

    自动内存管理,内存溢出一直以来都是很头疼的事情,而python则是自己自动管理内存的。

    可以移植 ,python无论在windows和linux上都可以直接运行、。

    可扩展,python还可以嵌入其他的语言,比如java和c++等。

    但同时python也有自己的缺点,那就是运行的速度比起c++来说速度是慢了10倍的。

    什么是爬虫

    网络爬虫(又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

    这些处理被称为网络抓取或者蜘蛛爬行。很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。

    一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复访问。