0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python性能优化的20条招数

马哥Linux运维 来源:未知 作者:李倩 2018-05-01 17:38 次阅读

优化算法时间复杂度

算法的时间复杂度对程序的执行效率影响最大,在 Python 中可以通过选择合适的数据结构来优化时间复杂度,如 list 和 set 查找某一个元素的时间复杂度分别是O(n)和O(1)。不同的场景有不同的优化方式,总得来说,一般有分治,分支界限,贪心,动态规划等思想。

减少冗余数据

如用上三角或下三角的方式去保存一个大的对称矩阵。在0元素占大多数的矩阵里使用稀疏矩阵表示。

合理使用 copy 与 deepcopy

对于 dict 和 list 等数据结构的对象,直接赋值使用的是引用的方式。而有些情况下需要复制整个对象,这时可以使用 copy 包里的 copy 和 deepcopy,这两个函数的不同之处在于后者是递归复制的。效率也不一样:(以下程序在 ipython 中运行)

import copya = range(100000)%timeit -n 10 copy.copy(a) # 运行10次 copy.copy(a)%timeit -n 10 copy.deepcopy(a)10 loops, best of 3: 1.55 ms per loop10 loops, best of 3: 151 ms per loop

timeit 后面的-n表示运行的次数,后两行对应的是两个 timeit 的输出,下同。由此可见后者慢一个数量级。

使用 dict 或 set 查找元素

python dict 和 set 都是使用 hash 表来实现(类似c++11标准库中unordered_map),查找元素的时间复杂度是O(1)

a = range(1000)s = set(a)d = dict((i,1) for i in a)%timeit -n 10000 100 in d%timeit -n 10000 100 in s10000 loops, best of 3: 43.5 ns per loop10000 loops, best of 3: 49.6 ns per loop

dict 的效率略高(占用的空间也多一些)。

合理使用生成器(generator)和 yield

%timeit -n 100 a = (i for i in range(100000))%timeit -n 100 b = [i for i in range(100000)]100 loops, best of 3: 1.54 ms per loop100 loops, best of 3: 4.56 ms per loop

使用()得到的是一个 generator 对象,所需要的内存空间与列表的大小无关,所以效率会高一些。在具体应用上,比如 set(i for i in range(100000))会比 set([i for i in range(100000)])快。

但是对于需要循环遍历的情况:

%timeit -n 10 for x in (i for i in range(100000)): pass%timeit -n 10 for x in [i for i in range(100000)]: pass10 loops, best of 3: 6.51 ms per loop10 loops, best of 3: 5.54 ms per loop

后者的效率反而更高,但是如果循环里有 break,用 generator 的好处是显而易见的。yield 也是用于创建 generator:

def yield_func(ls): for i in ls: yield i+1def not_yield_func(ls): return [i+1 for i in ls]ls = range(1000000)%timeit -n 10 for i in yield_func(ls):pass%timeit -n 10 for i in not_yield_func(ls):pass10 loops, best of 3: 63.8 ms per loop10 loops, best of 3: 62.9 ms per loop

对于内存不是非常大的 list,可以直接返回一个 list,但是可读性 yield 更佳(人个喜好)。

python2.x 内置 generator 功能的有 xrange 函数、itertools 包等。

优化循环

循环之外能做的事不要放在循环内,比如下面的优化可以快一倍:

a = range(10000)size_a = len(a)%timeit -n 1000 for i in a: k = len(a)%timeit -n 1000 for i in a: k = size_a1000 loops, best of 3: 569 µs per loop1000 loops, best of 3: 256 µs per loop

优化包含多个判断表达式的顺序

对于 and,应该把满足条件少的放在前面,对于 or,把满足条件多的放在前面。如:

a = range(2000) %timeit -n 100 [i for i in a if 10 < i < 20 or 1000 < i < 2000]%timeit -n 100 [i for i in a if 1000 < i < 2000 or 100 < i < 20]     %timeit -n 100 [i for i in a if i % 2 == 0 and i > 1900]%timeit -n 100 [i for i in a if i > 1900 and i % 2 == 0]100 loops, best of 3: 287 µs per loop100 loops, best of 3: 214 µs per loop100 loops, best of 3: 128 µs per loop100 loops, best of 3: 56.1 µs per loop

使用 join 合并迭代器中的字符串

In [1]: %%timeit ...: s = '' ...: for i in a: ...: s += i ...:10000 loops, best of 3: 59.8 µs per loopIn [2]: %%timeits = ''.join(a) ...:100000 loops, best of 3: 11.8 µs per loop

join 对于累加的方式,有大约5倍的提升。

选择合适的格式化字符方式

s1, s2 = 'ax', 'bx'%timeit -n 100000 'abc%s%s' % (s1, s2)%timeit -n 100000 'abc{0}{1}'.format(s1, s2)%timeit -n 100000 'abc' + s1 + s2100000 loops, best of 3: 183 ns per loop100000 loops, best of 3: 169 ns per loop100000 loops, best of 3: 103 ns per loop

三种情况中,%的方式是最慢的,但是三者的差距并不大(都非常快)。(个人觉得%的可读性最好)

不借助中间变量交换两个变量的值

In [3]: %%timeit -n 10000 a,b=1,2 ....: c=a;a=b;b=c; ....:10000 loops, best of 3: 172 ns per loopIn [4]: %%timeit -n 10000a,b=1,2a,b=b,a ....:10000 loops, best of 3: 86 ns per loop

使用a,b=b,a而不是c=a;a=b;b=c;来交换a,b的值,可以快1倍以上。

使用 if is

a = range(10000)%timeit -n 100 [i for i in a if i == True]%timeit -n 100 [i for i in a if i is True]100 loops, best of 3: 531 µs per loop100 loops, best of 3: 362 µs per loop

使用if is True比if == True将近快一倍。

使用级联比较x < y < z

x, y, z = 1,2,3%timeit -n 1000000 if x < y < z:pass%timeit -n 1000000 if x < y and y < z:pass1000000 loops, best of 3: 101 ns per loop1000000 loops, best of 3: 121 ns per loop

x < y < z效率略高,而且可读性更好。

while 1比while True更快

def while_1(): n = 100000 while 1: n -= 1 if n <= 0: breakdef while_true():    n = 100000    while True:        n -= 1        if n <= 0: break    m, n = 1000000, 1000000 %timeit -n 100 while_1()%timeit -n 100 while_true()100 loops, best of 3: 3.69 ms per loop100 loops, best of 3: 5.61 ms per loop

while 1 比 while true 快很多,原因是在 python2.x 中,True 是一个全局变量,而非关键字。

使用**而不是 pow

%timeit -n 10000 c = pow(2,20)%timeit -n 10000 c = 2**2010000 loops, best of 3: 284 ns per loop10000 loops, best of 3: 16.9 ns per loop

**就是快10倍以上!

使用 cProfile, cStringIO 和 cPickle 等用c实现相同功能(分别对应profile, StringIO, pickle)的包

import cPickleimport picklea = range(10000)%timeit -n 100 x = cPickle.dumps(a)%timeit -n 100 x = pickle.dumps(a)100 loops, best of 3: 1.58 ms per loop100 loops, best of 3: 17 ms per loop

由c实现的包,速度快10倍以上!

使用最佳的反序列化方式

下面比较了 eval, cPickle, json 方式三种对相应字符串反序列化的效率:

import jsonimport cPicklea = range(10000)s1 = str(a)s2 = cPickle.dumps(a)s3 = json.dumps(a)%timeit -n 100 x = eval(s1)%timeit -n 100 x = cPickle.loads(s2)%timeit -n 100 x = json.loads(s3)100 loops, best of 3: 16.8 ms per loop100 loops, best of 3: 2.02 ms per loop100 loops, best of 3: 798 µs per loop

可见 json 比 cPickle 快近3倍,比 eval 快20多倍。

使用C扩展(Extension)

目前主要有 CPython(python最常见的实现的方式)原生API, ctypes,Cython,cffi三种方式,它们的作用是使得 Python 程序可以调用由C编译成的动态链接库,其特点分别是:

CPython 原生 API: 通过引入 Python.h 头文件,对应的C程序中可以直接使用Python 的数据结构。实现过程相对繁琐,但是有比较大的适用范围。

ctypes: 通常用于封装(wrap)C程序,让纯 Python 程序调用动态链接库(Windows 中的 dll 或 Unix 中的 so 文件)中的函数。如果想要在 python 中使用已经有C类库,使用 ctypes 是很好的选择,有一些基准测试下,python2+ctypes 是性能最好的方式。

Cython: Cython 是 CPython 的超集,用于简化编写C扩展的过程。Cython 的优点是语法简洁,可以很好地兼容 numpy 等包含大量C扩展的库。Cython 的使得场景一般是针对项目中某个算法或过程的优化。在某些测试中,可以有几百倍的性能提升。

cffi: cffi 的就是 ctypes 在 pypy(详见下文)中的实现,同进也兼容 CPython。cffi提供了在 python 使用C类库的方式,可以直接在 python 代码中编写C代码,同时支持链接到已有的C类库。

使用这些优化方式一般是针对已有项目性能瓶颈模块的优化,可以在少量改动原有项目的情况下大幅度地提高整个程序的运行效率。

并行编程

因为 GIL 的存在,Python 很难充分利用多核 CPU 的优势。但是,可以通过内置的模块 multiprocessing 实现下面几种并行模式:

多进程:对于 CPU 密集型的程序,可以使用 multiprocessing 的 Process,Pool 等封装好的类,通过多进程的方式实现并行计算。但是因为进程中的通信成本比较大,对于进程之间需要大量数据交互的程序效率未必有大的提高。

多线程:对于 IO 密集型的程序,multiprocessing.dummy 模块使用 multiprocessing 的接口封装 threading,使得多线程编程也变得非常轻松(比如可以使用 Pool 的 map 接口,简洁高效)。

分布式:multiprocessing 中的 Managers 类提供了可以在不同进程之共享数据的方式,可以在此基础上开发出分布式的程序。

不同的业务场景可以选择其中的一种或几种的组合实现程序性能的优化。

终级大杀器:PyPy

PyPy 是用 RPython(CPython 的子集)实现的 Python,根据官网的基准测试数据,它比 CPython 实现的 Python 要快6倍以上。快的原因是使用了 Just-in-Time(JIT)编译器,即动态编译器,与静态编译器(如gcc,javac等)不同,它是利用程序运行的过程的数据进行优化。由于历史原因,目前 pypy 中还保留着 GIL,不过正在进行的 STM 项目试图将 PyPy 变成没有 GIL 的 Python。

如果 python 程序中含有C扩展(非cffi的方式),JIT 的优化效果会大打折扣,甚至比 CPython 慢(比 Numpy)。所以在 PyPy 中最好用纯 Python 或使用 cffi 扩展。

随着 STM,Numpy 等项目的完善,相信 PyPy 将会替代 CPython。

使用性能分析工具

除了上面在 ipython 使用到的 timeit 模块,还有 cProfile。cProfile 的使用方式也非常简单:python -m cProfile filename.py,filename.py是要运行程序的文件名,可以在标准输出中看到每一个函数被调用的次数和运行的时间,从而找到程序的性能瓶颈,然后可以有针对性地优化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 冗余
    +关注

    关注

    1

    文章

    106

    浏览量

    19983
  • 编程
    +关注

    关注

    88

    文章

    3439

    浏览量

    92375
  • python
    +关注

    关注

    51

    文章

    4674

    浏览量

    83458

原文标题:Python 性能优化的20条招数

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用Rust优化Python性能

    在数据分析领域Python无疑是最流行的编程语言,但是Python有一个硬伤就是作为一个编译语言在性能上有些微的欠缺。而同样最流行的语言Rust则在性能方面表现优秀。本文我们一起学习一
    的头像 发表于 11-01 15:59 464次阅读
    使用Rust<b class='flag-5'>优化</b><b class='flag-5'>Python</b><b class='flag-5'>性能</b>

    卖萌招数大转变,Compass 小公举变变变

    ,一口老血憋心头)只要不要脸的让疯了的设计师配上V字手,装扶额,随意wink威严高大的皇帝也可随变萌但风云客新众筹的Compass 小公举卖萌招数大转变!七彩小公举变变!!卖萌招数一七彩硅胶套搭配,你
    发表于 12-01 21:33

    新手Python学习该学Python2还是Python3

    2与Python3到底有何区别呢?1.性能Py3.0运行 pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可以取得很好的
    发表于 04-17 16:11

    成都-急招数字验证/Leader:

    成都-急招数字验证/Leader:岗位一(学习平台大):需要无线通信类验证岗位,团队芯片验证大牛多(大企业10-20多年经验),学习和进步空间大,薪资范围40-50W;岗位二(晋升平台大):需要数字
    发表于 09-29 10:56

    linux网络发包性能优化方法

    对于网络的行为,可以简单划分为 3 路径:1) 发送路径,2) 转发路径,3) 接收路径,而网络性能优化则可基于这 3 路径来考虑。
    发表于 07-16 06:05

    三种提高Python代码性能的简便方法

      在互联网编程语言盛行的今天,Python是比较流行的编程语言之一。但很多程序员对于Python代码性能的方法并不了解。今天这里主要为大家介绍三种提高Python代码
    发表于 08-03 18:37

    AN0004—AT32 性能优化

    本帖最后由 贪玩 于 2022-2-16 21:42 编辑 AN0004—AT32 性能优化这篇应用笔记描述了如何通过软件方法提高AT32的运行效能。AT32 性能优化概述
    发表于 08-15 14:38

    解读最佳实践:倚天 710 ARM 芯片的 Python+AI 算力优化

    更好的性能,或者更好的性价比。所以说如何整合 Python+AI 的相关软件使其发挥最好的性能成为了我们关注的重点。下文的分享整体分为两部分,一部分是介绍我们进行的优化工作,主要是跟矩
    发表于 12-23 16:02

    Python性能优化

    Python性能优化20条建议2016-07-05 17:38 1、优化算法时间复杂度 算法的时间复杂度对程序的执行效率影响最大,在
    发表于 10-10 10:31 0次下载

    Python应用与优化所必备的6个基本库

    无论你是想快速入手Python还是想为Python应用程序构建本地UI,亦或者对Python代码进行优化,本文列举的6个库,都有可能会帮到你。 由于具有易于使用的优势,
    发表于 11-15 11:40 2573次阅读

    python性能之服务优化的方法解析

    怎样发挥Python语言的最高性能
    的头像 发表于 12-31 01:04 3437次阅读
    <b class='flag-5'>python</b><b class='flag-5'>性能</b>之服务<b class='flag-5'>优化</b>的方法解析

    使用英特尔MKL提升Python性能

    满足Intel®Distributionfor Python *,这是一种易于安装,优化Python发行版,可帮助您优化应用程序的性能
    的头像 发表于 11-09 07:00 5524次阅读

    Python 3.8.1有什么新功能和优化

    距离 Python 3.8.1 rc1发布没多久的时间,目前,Python 3.8.1 也已正式发布。Python 3.8.1是Python 3.8的第一个维护版本,
    的头像 发表于 12-23 10:56 3045次阅读

    20个解决日常问题的Python代码片段!

    在本文中,将分享20Python 代码片段,以帮助你应对日常编程挑战。你可能已经知道其中一些片段,但有些其他片段对你来说可能是新的。赶紧使用这些有用的 Python 代码片段提升你的编程技能吧。
    的头像 发表于 03-13 09:40 767次阅读

    优化Python代码有哪些工具

    Python是一种强大的编程语言,但在面对复杂项目和紧迫的时间要求时,提高Python的使用效率变得至关重要。为此,以下是详细介绍十大工具,它们可以帮助您加速开发流程、提高编程体验并优化Pyt
    的头像 发表于 07-24 09:28 867次阅读