python multiprocessing 中imap和map的不同

本篇文章讲python的multiprocessing中
imap、map、imap_unordered和map_async方法之间的区别。

参考链接

主要有以下两个区别:

  1. 它们使用你传递给它们的可迭代的对象的方式。
  2. 它们返回结果的方式。
  • map通过将改可迭代的对象转换为列表(假设它不是列表),
    将其分解为块,并将这些块发送到池中的工作进程中。
    将该对象分解为块比一次直接执行一个对象要更好,特别是如果可迭代的对象很大。
    但是,将该对象转换为列表以便进行块化可能会产生非常高的内存成本,因为整个列表需要保存在内存中。
  • imap不会将您提供的可迭代对象变为列表,也不会将其分解为块(默认情况下)。
    它将一次遍历该对象的一个元素,并将它们分别发送到工作进程。
    这意味着您不会将整个对象转换为列表存在内存中(命中率降低),
    但这也意味着大型迭代的性能较慢,因为缺少分块。
    但是,可以通过传递大于默认值1的chunksize参数来减轻这种情况(命中率增加)。
  • 另一个主要的不同,在于imap/imap_unordered,
    你可以在工作准备就绪后立即开始接收进程的结果,而不必等待所有进程完成工作。
    使用map_async,虽然也会立即返回AsyncResult,但是在完成所有对象之前,您无法实际检索该对象的结果。
    此时它将返回映射所执行的相同列表,没有办法得到部分结果。
    在这个点上来说,它和map返回的情况相同;相当于说,你要么拥有整个结果,要么没有结果。
  • imap和imap_unordered都会立即返回结果。
    使用imap,结果将在它们准备就绪时从迭代中产生,同时仍保留输入可迭代的顺序。
    使用imap_unordered,无论输入可迭代的顺序如何,只要它们准备好就会产生结果。

所以,使用imap/imap_unordered替代map_async主要的原因有:

  1. 您的可迭代对象足够大,将其转换为列表会导致您耗尽/使用太多内存。
  2. 您希望能够在完成所有结果之前就先处理结果。
分享到