import 作用: 导入/引入一个python标准模块,其中包括.py文件、带有__init__.py文件的目录。
e.g:
[python] view plaincopy
import module_name[,module1,...]
from module import *|child[,child1,...]
说明:
多次重复使用import语句时,不会重新加载被指定的模块,只是把对该模块的内存地址给引用到本地变量环境。
测试:
a.py
#!/usr/bin/env python
#encoding: utf-8
import os
print 'in a',id(os)
m.py
#!/usr/bin/env python
#encoding: utf-8
import a #第一次会打印a里面的语句
import os #再次导入os后,其内存地址和a里面的是一样的,因此这里只是对os的本地引用
print 'in c',id(os)
import a #第二次不会打印a里面的语句,因为没有重新加载
reload 作用:对已经加载的模块进行重新加载,一般用于原模块有变化等特殊情况,reload前该模块必
须已经import过。
e.g:
import os
reload(os)
说明:
reload会重新加载已加载的模块,但原来已经使用的实例还是会使用旧的模块,而新生产的实例会使用新的模块;reload后还是用原来的内存地址;不能支持from。。import。。格式的模块进行重新加载。
测试:
a.py
#!/usr/bin/env python
#encoding: utf-8
import os
print 'in a',id(os)
m.py
#!/usr/bin/env python
#encoding: utf-8
import a #第一次import会打印a里面的语句
print id(a) #原来a的内存地址
reload(a) #第二次reload还会打印a里面的语句,因为有重新加载
print id(a) #reload后a的内存地址,和原来一样
扩展:上面说了,在特殊情况的下才会使用reload函数;除了原来模块文件有修改外,还有哪些情况需
要使用reload函数呢,这里举个例子。
#!/usr/bin/env python
#encoding: utf-8
import sys #引用sys模块进来,并不是进行sys的第一次加载
reload(sys) #重新加载sys
sys.setdefaultencoding('utf8') ##调用setdefaultencoding函数
上面的代码是正确的,再测试下面的代码
#!/usr/bin/env python
#encoding: utf-8
import sys
sys.setdefaultencoding('utf8')
上面的测试会失败,那么为什么要在调用setdefaultencoding时必须要先reload一次sys模块呢?
因为这里的import语句其实并不是sys的第一次导入语句,也就是说这里其实可能是第二、三次进行sys
模块的import,这里只是一个对sys的引用,只能reload才能进行重新加载;那么为什么要重新加载,而
直接引用过来则不能调用该函数呢?因为setdefaultencoding函数在被系统调用后被删除了,所以通过
import引用进来时其实已经没有了,所以必须reload一次sys模块,这样setdefaultencoding才会为可
用,才能在代码里修改解释器当前的字符编码。试试下面的代码,同样会报错:
#!/usr/bin/env python
#encoding: utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
del sys.setdefaultencoding ##删除原来的setdefaultencoding函数
sys.setdefaultencoding('gb2312')
那么到底是谁在之前就导入sys并且调用了setdefaultencoding函数呢?
答案就在python安装目录的Lib文件夹下,有一个叫site.py的文件【python2.6】,在里面可以找到
main() --> setencoding()-->sys.setdefaultencoding(encoding),因为这个site.py每次启动python解
释器时会自动加载,所以main函数每次都会被执行,setdefaultencoding函数一出来就已经被删除了。
__import__ 作用:同import语句同样的功能,但__import__是一个函数,并且只接收字符串作为参
数,所以它的作用就可想而知了。其实import语句就是调用这个函数进行导入工作的,import sys
<==>sys = __import__('sys')
e.g:
__import__(module_name[, globals[, locals[, fromlist]]]) #可选参数默认为globals(),locals(),[]
__import__('os')
__import__('os',globals(),locals(),['path','pip']) #等价于from os import path, pip
说明:
通常在动态加载时可以使用到这个函数,比如你希望加载某个文件夹下的所用模块,但是其下的模块名
称又会经常变化时,就可以使用这个函数动态加载所有模块了,最常见的场景就是插件功能的支持。
扩展:
既然可以通过字符串来动态导入模块,那么是否可以通过字符串动态重新加载模块吗?试试
reload('os')直接报错,是不是没有其他方式呢?虽然不能直接reload但是可以先unimport一个模块,然
后再__import__来重新加载模块。现在看看unimport操作如何实现,在Python解释里可以通过
globals(),locals(),vars(),dir()等函数查看到当前环境下加载的模块及其位置,但是这些都只能看
不能删除,所以无法unimport;不过除此之外还有一个地方是专门存放模块的,这就是sys.modules,
通过sys.modules可以查看所有的已加载并且成功的模块,而且比globals要多,说明默认会加载一些额
外的模块,接下来就是unimport了。
#!/usr/bin/env python
#encoding: utf-8
import sys
__import__('a') #第一次导入会打印消息
del sys.modules['a'] #unimport
__import__('a') #再次导入还是会打印消息,因为已经unimport一次了
__import__('a') #这次就不会打印消息了
Python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),python没办法处理非ascii编码的,此时需要自己设置将python的默认编码,一般设置为utf8的编码格式。
查询系统默认编码可以在解释器中输入以下命令:
Python代码
>>>sys.getdefaultencoding()
设置默认编码时使用:
Python代码
>>>sys.setdefaultencoding('utf8')
可能会报AttributeError: 'module' object has no attribute 'setdefaultencoding'的错误,执行reload(sys),在执行以上命令就可以顺利通过。
此时再执行sys.getdefaultencoding()就会发现编码已经被设置为utf8的了,但是在解释器里修改的编
码只能保证当次有效,在重启解释器后,会发现,编码又被重置为默认的ascii了,那么有没有办法一次
性修改程序或系统的默认编码呢。
有2种方法设置python的默认编码:
一个解决的方案在程序中加入以下代码:
Python代码
import sys
reload(sys)
sys.setdefaultencoding('utf8')
另一个方案是在python的Lib\site-packages文件夹下新建一个sitecustomize.py,内容为:
Python代码
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
此时重启python解释器,执行sys.getdefaultencoding(),发现编码已经被设置为utf8的了,多次重启之后,效果相同,这是因为系统在python启动的时候,自行调用该文件,设置系统的默认编码,而不需要每次都手动的加上解决代码,属于一劳永逸的解决方法。
另外有一种解决方案是在程序中所有涉及到编码的地方,强制编码为utf8,即添加代码encode("utf8"),这种方法并不推荐使用,因为一旦少写一个地方,将会导致大量的错误报告。
基本概念
在Python里有两种类型的字符串类型:字节字符串和Unicode的字符串,一个字节字符串就是一个包含字
节列表。 当需要的时候,Python根据电脑默认的locale设置将字节转化成字符。 在Mac OX上默认的编
码是UTF-8,但是在别的系统上,大部分是ASCII。
比如创建一个字节字符串:
byteString = "hello world! (in my default locale)"
创建一个Unicode字符串:
unicodeString = u"hello Unicode world!"
将一个字节字符串转成Unicode字符串然后再转回来:
s = "hello byte string"
u = s.decode()
backToBytes = u.encode()
以上代码使用的是系统默认的字符来出来转换的。 最好的办法就是为字符指定一个编码:
s = "hello normal string"
u = s.decode("UTF-8" )
backToBytes = u.encode( "UTF-8" )
现在,字节字符串s就被当成一个UTF-8字节列表去创建一个Unicode字符串u, 下一行用UTF-8表示的字符
串u转换成字节字符串backToBytes.
如何判断一个对象是字符串
比如这样去判断:
if isinstance( s, str ):
pass
这样是不对的,因为Unicode字符串将不为真. 代替的是使用通用字符串类, basestring:
if isinstance( s, basestring ):# True for both Unicode and byte strings
pass
单独判断是不是Unicode字符串:
if isinstance( s, unicode ):
pass
读取UTF-8编码的文件
你可以手工转换从文件中读取的字符串,方法很简单:
import codecs
fileObj = codecs.open( "someFile", "r", "UTF-8" )
u = fileObj.read() # Returns a Unicode string from the UTF-8 bytes in the file
codecs模块可以处理所有的编码转换。
源码的编码声明
Python源代码默认是 ASCII.可以在源文件的第一行或者是第二行作如下声明:
# coding=UTF-8
or (using formats recognized by popular editors):
#!/usr/bin/python
# -*- coding: UTF-8 -*-
or:
#!/usr/bin/python
# vim: set fileencoding=UTF-8 :
系统编码
前面说了,Python根据电脑默认的locale设置将字节转化成字符.那如何获得系统的默认编码:
import sys
print sys.getdefaultencoding()
更改系统的默认编码:
import sys
reload(sys)
sys.setdefaultencoding('UTF-8')
为什么要reload sys模块,先看下python的模块加载过程:
# python -v
# installing zipimport hook
import zipimport # builtin
# installed zipimport hook
# /usr/local/lib/python2.6/site.pyc matches /usr/local/lib/python2.6/site.py
import site # precompiled from /usr/local/lib/python2.6/site.pyc
....
Python运行的时候首先加载了site.py,在site.py文件里有这么一段代码:
if hasattr(sys, "setdefaultencoding"):
del sys.setdefaultencoding
在sys加载后,setdefaultencoding方法被删除了,所以我们要通过重新导入sys来设置系统编码.