勤学思培训网USEIRY
  • 总算发现python3.5入门教程

    Python语言是一种典型的脚本语言,简洁,语法约束少,接近人类语言。有丰富的数据结构,例如列表、字典、集合等。具有可移植性,支持面向过程和面向对象编程,并且开源。以下是小编为你整理的入门教程

    下载安装:从python官网下载开发和运行环境程序。本例下载python-.amd64的安装包,并安装。

    开发工具:window系统中,python有多种开发工具,比如,一、直接在cmd命令窗口执行,但此种仅能单条语句执行,不能运行完整的程序。二、python自带的集成开发环境,可通过开始——所有程序————IDLE(Python GUI)启动。三、其他集成开发环境,如PythonWin等,有编辑和调试能力,还实现了MFC类库存的包装。


    [图片0]

    本例中,使用python自带的开发环境。File—New File,新建py文档,编写程序,保存。Run——Run module,可得到运行结果。

    封装性:可以把属性、方法结合在一起,不可以直接访问对象的属性,仅能通过接口与对象发生联系。以下把方法和属性封装成了一个类。

    构造器:python有3种类型的构造器,且一个类中仅可以定义一个构造器,若多个,则以最后为准。1.若不声明,则默认为一个没有任何操作的特殊的__init__方法,__init__(self),此时可通过obj = my_class()声明实例。 2.自声明__init__构造器,会覆盖默认的,且可以更新类的数据属性。3.构造器方法__new__(),用于不可变内置类型派生,不能通过实例访问属性,仅能通过类访问。

    继承性:python支持多继承,且子类继承了父类的方法和属性。若子类中有和父类相同名称的方法,则子类会覆盖(Override)父类方法。父类方法依旧可以访问。

    数据结构:有丰富的数据结构,例如列表、字典、集合等。本例简单介绍字典的使用。字典是键值对的无序集合,是可变对象。键在字典中是唯一的且必须是不可变对象。值可以是可变对象或不可变对象。以下例子对python字典的定义、访问、更新等的操作。

    学会python的作用

    Python高级工程师 : 北上广深的话,薪金在1万以上,需要精通Linux/Unixg平台,有英语阅读功底。

    Web网站开发方向: 熟悉Web开发的常用 Python框架,熟悉掌握Mysql类数据库的操作即可。

    SEO工程师: 为自己或公司开发和改进SEO相关软件,实现自动化搜索引擎优化和日常重复工作。

    Python自动化测试:熟悉自动化流程、方法和常用的模块的使用,有英文读写的能力。

    Linux运维工程师: Linux服务器管理,数据分析、自动化处理任务、分析网站日志、定时计划管理,解放双手。

    Python游戏开发工程师: 网络游戏后端服务器逻辑的开发和处理,有大型数据库使用经验,喜欢从事游戏相关工作。 Python自学爱好者: 可以自己开发一些小软件和应用,带图形化界面的软件,方便日常工作。

    如何导入re模块

    导入re模块

    #导入正则表达式模块

    import re

    再来一个简单的例子演示

    #简单演示

    s='123abc123abc123abc'

    print s

    print (r'123',s)

    #'r'...''表示raw字符串

    #功能字符:'.','*','?','^','$','/'

    #分界符:'[',']','(',')','{','}'

    #转义字符:'d','w','s','b'

    #'|'表示或

    s='I have a pen and I have a apple'

    print s

    print (r'I have a pen|apple',s)

    print (r'I have a (?:pen|dog)',s)

    使用无捕获组与一般或'|'的区别

    无捕获组使用'(?:...)'格式

    #无捕获组:'(?:)'

    s='ababababba babab babababab'

    print (r'/b(?:ab)+/b',s)


    [图片1]

    #'.'匹配除换行符之外的所有字符,若选用则包括所有字符

    s='123n456n789'

    print s

    print (r'.+',s)

    print (r'.+',s,)

    爬虫准备

    爬虫首先需要做的事情就是要确定好你想要爬取数据的对象,这里我将以百度主页logo图片的地址为例进行讲解。

    首先,是打开百度主页界面,然后把鼠标移动到主页界面的百度logo图标上面,点击鼠标右键,然后点击审查元素,即可打开开发者界面。

    3然后再下面的界面里面,可以看到该logo图标在HTML里面的排版模式,,这里百度我用字替换了。

    爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。

    首先,我们进行页面获取,python爬虫的话很多模块包提供给开发者直接抓取网页,urllib,urllib2,requests(urllib3)等等,这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包(该包是默认安装的):import urllib2

    导入模块包之后,然后调用urllib2中的urlopen方法链接网站,代码如下repr = ("XXXXXX"),XXXXXX代表的是网站名称。

    得到网站的响应之后,然后就是将页面的源代码读取出来,调用read方法,html = ()

    获取到页面的源代码之后,然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来,解析界面的模块包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,这里我就简单的用re介绍介绍,首先导入re模块包:import re

    然后进行利用re进行搜索,这里我有使用正则表达式,看不懂的同学需去补充点正则表达式方面的知识。