Python应用代码在哪里

转载

云端小梦 2024-11-26 14:28:58

文章标签 Python应用代码在哪里 python加速运行数据图像处理虚拟内存 文章分类 Python 后端开发

这些评论和Moj的回答给出了很多很好的建议。我在使用python进行信号/图像处理方面有一些经验，而且我的头多次撞到性能墙上，我只想分享一些关于提高速度的想法。也许这些有助于用慢算法找出可能的解决方案。在

时间花在哪里了？

让我们假设你有一个很好的算法，只是太慢了。第一步是对其进行分析，看看时间花在了哪里。有时候，时间是用愚蠢的方式去做一些琐碎的事情。它可能在您自己的代码中，甚至可能在库代码中。例如，如果您想运行一个具有较大内核的2D高斯滤波器，直接卷积非常慢，甚至FFT也可能很慢。在某些情况下，用低成本的连续滑动平均值来近似滤波器可能会将速度提高10倍或100倍，并给出足够接近的结果。在

如果在某些模块/库代码中花费了大量的时间，您应该检查该算法是否只是一个缓慢的算法，或者库中是否存在一些缓慢的问题。Python对一些库来说是很好的解压，但是对于一些库来说，这是一个很好的解压，这意味着对一些库的二进制处理不是很好。另一方面，如果可以找到合适的库，在信号/图像处理中使用python的代价通常可以忽略不计。因此，用C重写整个程序通常没有多大帮助。在

有时写缓存的性能也会因C的不同而有所不同。如果数据在CPU缓存中，则可以非常快速地获取数据，如果不是，则算法速度会慢得多。这可能会根据数据大小在处理时间中引入非线性步骤。(大多数人从虚拟内存交换中知道这一点，在虚拟内存交换中，这一点更为明显。)因此，用10万点解决100个问题可能比用10万个点解决1个问题要快得多。在

要检查的一件事是计算中使用的精度。在某些情况下，float32与float64一样好，但速度更快。在许多情况下没有区别。在

多线程

Python-我有提过吗？-是一种很棒的编程语言，但它的缺点之一是它的基本形式是运行一个线程。所以，不管你的系统有多少核心，挂钟时间总是一样的。结果是其中一个核心是100%，而其他核心则在空闲时间。使事情并行并拥有多个线程可以将性能提高一倍，例如，在4核机器中。在

如果你能把问题分成几个独立的小部分，这通常是个好主意。它有助于解决许多性能瓶颈。在

也不要指望技术会来拯救。如果编写的代码不是并行的，机器很难使其并行。在

GPU

你的机器可能有一个伟大的GPU，可能有1536个数字饥饿的核心准备粉碎你扔给他们的一切。坏消息是，生成GPU代码与编写CPU代码有点不同。有一些稍微通用的api(CUDA、OpenCL)，但是如果您不习惯为gpu编写并行代码，请准备一个陡峭的学习曲线。另一方面，很可能有人已经编写了您需要的库，然后您只需要钩住它。在

有了gpu，绝对的数字处理能力令人印象深刻，几乎令人恐惧。我们可以讨论3tflops(每秒3x10^12单精度浮点运算)。问题在于如何将数据传输到GPU核心，因为内存带宽将成为限制因素。这意味着，尽管在许多情况下使用gpu是一个好主意，但也有很多情况下没有收益。在

典型实际上，如果您在映像上执行许多本地操作，那么这些操作很容易并行，而且它们很适合GPU。如果你在做全球业务，情况会更复杂一些。FFT需要图像中的所有信息，因此标准算法不能很好地与gpu一起工作。(对于fft，有基于GPU的算法，它们有时会使速度更快。)

另外，要注意让你的算法在GPU上运行会把你绑定到GPU上。代码在操作系统或机器之间的可移植性受到影响。在

购买性能

另外，需要考虑的一件重要的事情是，如果您需要运行一次算法，偶尔运行一次，或者实时运行一次。有时候，解决方法就像从一台更大的计算机上争取时间一样简单。花一到两美元一小时，你就可以从拥有大量资源的快速机器上获得时间。它比你想象的更简单，而且通常更便宜。同样，GPU容量可以很容易地以类似的价格购买。在

一些云服务的一个可能稍欠宣传的特性是，在某些情况下，虚拟机的IO速度与物理机相比非常好。区别来自于这样一个事实：没有旋转盘片，每次数据寻道平均惩罚为半转。对于数据密集型应用程序，这一点可能很重要，尤其是当您处理大量文件并以非线性方式访问它们时。在

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql拷贝数据库用户权限

下一篇：vue显示opencv

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Python应用代码在哪里

Python应用代码在哪里

51CTO博客