四十年人类迁移规律自然杂志

深度学习揭示四十年人类迁移规律

Thomas Gaskin and Guy J. Abel

人类迁移是全球人口动态变化的基本驱动力，塑造着各国的种群结构、劳动力市场和社会政策。尽管长期迁移模式常与经济发展相关联，但它们也可能因冲突、环境危机和政治变革等冲击而迅速转变。尽管迁移至关重要，但其衡量仍然困难重重：现有数据稀疏、集中于高收入环境，并因不相容的定义、时间分辨率和数据类型而支离破碎。过去的努力依赖于部分数据集，包括流量记录、存量估计和覆盖范围有限的基于模型的重建。

因此，一个核心挑战是构建一个随时间变化的、全球一致且高分辨率的迁移流量记录。在此，我们展示了一个新的数据集，涵盖了1990年至今230个国家和地区间的年度原籍地-目的地迁移数据，该数据集将多样化的数据源整合到一个统一的建模框架中。通过结合官方统计数据、基于人口普查的存量数据、净迁移估计和过去的流量重建，我们的方法产生了时间详细且空间全面的估计，显著扩展了现有资源。

利用由地理、经济、文化和政治协变量信息构成的深度循环神经网络集成，我们捕捉了持续的趋势和对变化条件的短期响应——同时通过传播不确定性来生成置信区间。我们的结果在保留数据上优于现有的五年期流量估计，并提供了更精细的时间分辨率，揭示了全球迁移模式中先前模糊的动态。该框架突显了不确定性仍然很高、最迫切需要数据收集的区域。通过发布所有数据、代码和训练好的模型，我们为未来的工作提供了一个透明且可重复的基础。这些进展使得对人口流动的更及时和详细的理解成为可能，对日益动态的全球系统中的研究和政策制定具有重要意义。

人口的流动——无论是国家内部还是国家之间——是多个领域的重要议题。迁移驱动着人口变化，塑造着人口的规模和构成；它可以影响劳动力市场、为社会政策提供信息，并且是公众辩论的热门话题。尽管迁移常常遵循由发展驱动的长期趋势，但它也可能因短期冲击——武装冲突、饥荒、自然灾害、政治不稳定、国家边界改变、和平协议或独立运动——而发生戏剧性的改变。

然而，人类迁移的定义和追踪是出了名的困难。当前对全球迁移系统的分析严重依赖于联合国每五年发布一次和世界银行每十年发布一次的移民人口数据。这些数据集按出生国提供了每个国家中的移民数量，通常称为存量数据。

虽然收集起来相对直接，但它们只提供了固定时间点的快照，对迁移的时间动态洞察有限：移民可能是在观测点前不久到达的，也可能是几十年前到达的。为了更好捕捉迁移动态，研究人员开发了通过比较每个间隔期初和期末的移民存量变化来估算多年期迁移流量的方法。然而，由于这些估计与基础存量数据的时间间隔相关联，所得出的五年或十年估计值不可避免地平滑或完全错过了中间年份发生的迁移活动。

全球迁移研究人员理想上需要的是所有国家的年度流量数据。这样的数据将使他们能够以远更高的精度追踪迁移系统的节奏，将迁移模式与经济变化、冲突、气候或政策改革等驱动因素的年度报告数据集相结合，为年度人口预测模型提供输入，并促进跨国家和地区的因果与比较分析。然而，现有的年度迁移流量数据主要来源于拥有监测迁移所需统计基础设施的高收入西方国家。这些数据仅覆盖了全球迁移系统的一小部分（图1a），并强化了全球迁移研究中的接收国偏向。

在发布迁移流量统计数据的国家，构成迁移事件的定义是由旨在满足国内政策需求的标准决定的，这可能会使比较分析产生偏差。尽管联合国推荐采用十二个月的阈值（即任何在一年中大部分时间或更长时间内搬迁的人均符合移民资格），但该定义并未得到一致应用。一些国家如德国强制要求居住登记，要求移民在抵达时报告其原籍国。其他国家如英国，依赖签证记录、行政数据以及（直到最近）乘客调查。第三种常见方法是利用移民当局收集的边境入境统计数据。

每种方法都有局限性：登记系统通常低估迁出，因为很少有人会在离开时注销登记；乘客调查和边境数据不全面，并且可能混淆短期和长期旅行者。因此，来自原籍国和接收国的估计常常存在显著差异。例如，2005年德国报告从波兰抵达了16万人，而波兰仅记录了1.23万人离境前往德国（图1b）。在欧洲，为了调和这些差异，统计人口学家开发了估算国家间双边迁移流量的模型。最近的研究QuantMig项目利用贝叶斯框架结合专家知识，估算了2009年至2019年间30个欧洲国家的双边迁移流量。这产生了一个统一的数据集，揭示了巨大的不确定性——在某些情况下，可信区间跨度超过100%。

鉴于可用于监测发展中国家间许多主要迁移走廊的迁移流量统计数据匮乏，这种方法难以轻易推广到全球环境。劳动力迁移数据是另一个重要来源，因为移民工人通常占国际迁移者的很大一部分。然而，在这里，定义和数据标准在不同国家间也差异很大，而非正规迁移——由于其固有性质——在很大程度上仍对官方统计数据不可见。

一项近期研究试图通过分析数字痕迹来绕过官方数据源监测全球迁移流量。通过监测聚合、匿名化的月度Facebook位置数据变化，估算2019年至2022年间181个国家间的双边流量，该研究捕捉到了例如俄罗斯入侵后乌克兰人的流离失所、委内瑞拉移民危机以及大流行期间改变的迁移模式。来自超过30亿用户的数字痕迹经过加权以代表人口层面的迁移流量，考虑了沿每条走廊的Facebook使用情况和经济发展差异，并针对选定国家的官方迁移统计数据进行了校准。这些数据首次提供了近乎全球范围的直接迁移流量估计。

许多国家感兴趣的宏观指标之一是净迁移——即迁入与迁出移民的平衡。少数国家发布净迁移数据，这些数据通常根据移民和边境统计数据估算得出（补充图1）。而在全球范围内，联合国经济和社会事务部在其《世界人口展望》报告中提供了自1950年以来的数据。这些数据主要基于人口估计而非迁移统计数据。由于出生和死亡数据比迁移数据更广泛且一致地被追踪，原则上可以通过从总人口变化中减去自然增长（出生数减去死亡数）来估算净迁移。尽管这种方法在理论上是合理的，但在实践中，它受到总人口及其随时间变化测量中存在的各种不规范问题的阻碍，这些问题对人口普查方法的不一致性很敏感。因此，人口统计学的净迁移估计可能与基于迁移的统计数据存在显著差异，即使对于人口数据质量高的国家也是如此（图1c）。

在此，我们将深度学习与机制性流量模型相结合，估算了1990-2023年期间联合国承认的所有230个国家和地区之间的年度双边迁移流量。我们的数据按出生国进行分解，这意味着，除了每个国家的流量和净迁移数据外，我们还获得了完整的年度移民存量数据集，即出生于b国、居住在j国、在t年的移民数量Sbj(t)。一个深度神经网络在针对每个国家的一系列广泛的社会经济和文化协变量上进行训练（扩展数据表1），使我们能够解析迁移的驱动因素，并为未来预测迁移流量打开了大门。该网络被训练以匹配一组目标数据，包括联合国经济和社会事务部的移民存量数据、Facebook数据，以及少量（主要是欧洲的）双边流量和净迁移数据。

目标数据用于构建损失函数，在训练过程中通过迭代方式最小化该损失函数。损失函数量化了预测与目标之间的不匹配，是神经网络通过遵循损失梯度（即最陡下降方向）力求最小化的一个目标。一旦训练完成，神经网络就作为一个将输入协变量映射到迁移流量的函数（扩展数据图1）。通过训练一系列神经网络，并进一步将输入数据的不确定性“推”过网络，我们的方法还能够量化不确定性，使我们能够准确指出哪些国家的数据不一致，以及哪些国家应改进数据收集。

这标志着迄今为止用于模拟全球迁移的计算工具包实现了范式转变。过去的大多数技术仅依赖于联合国经济和社会事务部发布的移民存量数据，这些数据从1990年开始每五年提供一次估计（图1d）。最简单的估算技术基于存量差分，并假设双边流量F_ij等于存量差S_ij(t+1)-S_ij(t)，其中b=i。负差值要么被丢弃（意味着零流量），要么被计入反方向的流量。这里简化的假设是双边迁移流量仅发生在从一个人的出生国到目的地国；也就是说，在英国瑞典人的存量变化仅因来自和返回瑞典的瑞典人而变化，而非因来自例如挪威的瑞典人而变化。为了解决这个问题，研究人员提出了一系列更精细的所谓人口学核算方法。

这些方法试图推断一个三维流量矩阵T_bij，每个条目模拟出生于b的人从i移动到j的流量，这提供了更大的灵活性，但也大大增加了需要估计的参数数量。流量表受到约束，使其估计值能重现存量差异。这些存量通常会先进行调整以计入出生和死亡，使得估计的流量仅重现非由人口变化引起的存量变化。

基于存量的流量估算方法都接受了存量数据的表面价值；它们也无法提高估算的时间分辨率，并且迄今仅产生了五年或十年的流量（联合国经济和社会事务部或世界银行数据的分辨率）。另一种方法是使用引力模型，该模型泛指任何将流量与一组协变量χ相关联的基于回归的方法。

这些模型原则上可以在任何分辨率下捕捉流量，前提是协变量质量足够且选择得当；然而，即使在拥有大量且复杂的协变量集的情况下，它们在模拟迁移时也往往表现不佳。将迁移建模为log T_bij(t) = f(χ_bij(t))时，其根本问题在于它将人类视为马尔可夫性的，仅基于当前的世界状态行动，而不考虑过去。这在考虑对突发性灾难事件的响应时可能是合理的，但在纳入长期的宏观政治、经济或社会指标时却很难说是合理的。在大多数情况下，离开的决定不仅仅基于当前的经济气候：由于多种延迟效应和复杂的反馈循环，过去几年的危机会影响个人的决定。任何不考虑系统记忆的模型都无法准确重现，更不用说解释人类迁移在时间和空间上的差异性了。

在此，我们使用循环神经网络（recurrent neural network，RNN），它通过维护一个随时间变化的隐藏状态或潜在状态z(t)来实现一种记忆形式。这使得网络能够使用动态过滤器选择性地保留过去的信息，并学习不同长度的时序相关模式。潜在状态结合了过去的动态来影响今天的流量，而不假设通常不稳定的迁移流量的时间平稳性。

近年来，应用机器学习方法预测和解释人类迁移与流动模式的研究急剧增加。研究已在多种情境下应用了包括深度学习方法在内的机器学习技术。大多数应用是为解决城市、地区和国家内部的通勤和流动模式而开发的。

迁移研究中的建模工作主要集中于国家内部的移动，包括对气候和环境驱动的迁移流动性分析，以及对主要进入高收入西方国家的庇护寻求和非正规国际迁移的预测。与全球迁移数据环境不同，这些近期文献中的移动响应变量通常来源于单一数据源，不存在整合多种测量指标的挑战以及跨多个原籍地-目的地走廊的数据缺失或不一致问题。此外，这些研究的重点并非在全球层面量化国际迁移的规模和模式，而是在数据丰富的环境中，为经典建模方法提供更优的外推预测，或帮助检测协变量因素与流动或迁移之间的可能联系。

本文结构如下：首先，我们展示估算结果，通过一系列案例研究呈现数据。我们在未见过的流量测试数据上验证了我们方法的性能，并将其与上述提到的几种标准方法进行了比较。推理方法在“方法”部分有详细说明。我们将存量估计记为S，按出生国分解的流量记为T，总原籍地-目的地流量记为F，净迁移记为M。为清晰起见，在可能的情况下将省略时间参数。估计量将用hat表示，例如M̂。

全球迁移地图

我们的估计显示，自2000年以来，全球迁移流动人数已从每年1300万增加到2023年的约3500万（图2a）。这一趋势不能由全球人口增长来解释，因为人均迁移率也呈现类似的稳定增长，从2000年的0.2%增加到2023年的0.45%（扩展数据图2）。自世纪之交以来，全球迁移总量仅经历了两次持续下降期：2008-2009年“大衰退”期间和2020年COVID-19大流行期间。我们记录的最大单年事件是1994年从卢旺达到刚果民主共和国的人口流动，总计近95万人。在全球范围内，中东地区的移民流入总量最高，主要来自南亚和菲律宾，其中仅从孟加拉国到沙特阿拉伯的移民自2010年以来平均每年约30万人（图2c）。

我们估计，自2010年以来，共有1900万人（平均每年135万人）从印度、巴基斯坦和孟加拉国迁移到沙特阿拉伯、卡塔尔、巴林和阿联酋——相比之下，自1990年以来，从墨西哥到美国的全部迁移人数为1360万。

欧洲一直被评为区域内迁移量最高的地区，仅次于1990年代初卢旺达内战期间的撒哈拉以南非洲（扩展数据图3）。在2020年之前，欧洲的总流量达到每年约300万人，在2000年代和2010年代随着欧盟和申根区的东扩而稳步增长。自1990年以来，从东欧到西欧的流量总计约2000万，即每年60万。图3显示了1991年苏联解体后欧洲内部的流动快照，按出生国着色。根据我们的估计，在那一年，欧洲内部流动达到了约202万人，其中仅出生于波兰、俄罗斯、乌克兰和罗马尼亚的人就有80.7万。最大的流动发生在乌克兰与俄罗斯、哈萨克斯坦与俄罗斯之间，以及进入德国的迁移。

在此期间，我们看到了高水平的回流迁移（双向移动），一些人寻求返回其出生国，而另一些人则在国外重新安置以寻找经济机会。图3b显示了选定走廊的流量估计F̃，以及用于训练神经网络的各种数据集的值。我们的估计不仅与数据匹配得非常好，而且与QuantMig值上的不确定性也匹配得极好（参见下文不确定性量化部分的讨论）。

全球南方地区的迁移

欧洲或许是最不需要对迁移模式进行详细分析的地区，因为其数据（相对）充足。我们数据集的价值主要在于它能告诉我们世界其他地区，特别是全球南方地区的迁移情况。例如，在2010年代中期，撒哈拉以南非洲经历了大规模迁移事件。内战从2013年起在新独立的国家南苏丹肆虐，导致大量人口外流到邻国埃塞俄比亚（图4）。联合国难民署将在埃塞俄比亚的所有南苏丹移民人口归类为难民。