python multiprocessing 中imap和map的不同

2018-11-20

python3笔记

python3

本篇文章讲python的multiprocessing中
imap、map、imap_unordered和map_async方法之间的区别。
参考链接

主要有以下两个区别：

它们使用你传递给它们的可迭代的对象的方式。
它们返回结果的方式。

map通过将改可迭代的对象转换为列表（假设它不是列表），
将其分解为块，并将这些块发送到池中的工作进程中。
将该对象分解为块比一次直接执行一个对象要更好，特别是如果可迭代的对象很大。
但是，将该对象转换为列表以便进行块化可能会产生非常高的内存成本，因为整个列表需要保存在内存中。

imap不会将您提供的可迭代对象变为列表，也不会将其分解为块（默认情况下）。
它将一次遍历该对象的一个元素，并将它们分别发送到工作进程。
这意味着您不会将整个对象转换为列表存在内存中（命中率降低），
但这也意味着大型迭代的性能较慢，因为缺少分块。
但是，可以通过传递大于默认值1的chunksize参数来减轻这种情况（命中率增加）。

另一个主要的不同，在于imap/imap_unordered，
你可以在工作准备就绪后立即开始接收进程的结果，而不必等待所有进程完成工作。
使用map_async，虽然也会立即返回AsyncResult，但是在完成所有对象之前，您无法实际检索该对象的结果。
此时它将返回映射所执行的相同列表，没有办法得到部分结果。
在这个点上来说，它和map返回的情况相同;相当于说，你要么拥有整个结果，要么没有结果。

imap和imap_unordered都会立即返回结果。
使用imap，结果将在它们准备就绪时从迭代中产生，同时仍保留输入可迭代的顺序。
使用imap_unordered，无论输入可迭代的顺序如何，只要它们准备好就会产生结果。

所以，使用imap/imap_unordered替代map_async主要的原因有：

您的可迭代对象足够大，将其转换为列表会导致您耗尽/使用太多内存。
您希望能够在完成所有结果之前就先处理结果。