一些研究对多种DD建模技术在有害蓝藻水华预测中的性能和局限性进行了比较。有学者比较了12种DD建模技术,包括利用简单回归、ANN和DTs预测美国Cheney水库蓝藻细胞、微囊藻毒素和土臭素浓度。利用立体回归模型更好地再现了最大有害蓝藻水华的浓度,这也是水资源管理人员最感兴趣的,因为细胞浓度最大值通常与最危险的情况有关。此外,支持向量机(SVM)、随机森林方法和Boosted树也表现出良好的性能,在60000 cells.ml-1浓度以下,支持向量机方法的均方根误差(RMSE)比较小。在澳大利亚菲茨罗伊瀑布水库,比较ANN、DTs(极端随机树和模型树)和用多元回归预测时间尺度为一周的蓝藻、绿藻和硅藻种群。根据作者的说法,极端随机树方法的表现是最好的。有学者通过对ANN、SVM、回归树和随机森林的比较,预测了中国密云水库藻类细胞密度和群落变化。随机森林(DTs)在训练步骤中的表现是最好的,而在使用缺失数据的测试中表现不佳。对于这个案例,作者建议使用DTs,因为它们的表现更好,只需要容易测量的水质变量。
还可以结合DD建模技术来提高预报和预测性能。结合模型树和GP来预测以色列Kineret湖的有害蓝藻水华。模型表现根据所选状态变量的数量和类型在不断变化。作者考虑了输入状态变量的可靠性(或不确定性)和便于在选择最合适的模型时测量变量。
DD模型概述数据驱动模型通过多种统计技术被广泛应用于有害蓝藻水华的预测。DD模型与PB模型相比的一个主要优点是它们对专业知识的要求较低,具有发展优势。然而,对与有害蓝藻水华相关的潜在现象的认知理解可以应用于优化输入变量,进而提高DD模型的性能。由于DD模型强烈依赖于数据的可用性和质量,如果数据不匹配模型的目的,则模型性能可能受到严重限制。此外,由于预测规则是完全从数据中提取的,因此它们的预测性能通常仅限于观测数据的变化范围。DD模型的另一个局限是,并不是所有的输出(即预测规则和观察到的模式)都允许用户获得驱动有害蓝藻水华过程的因子。换句话说,一些预测规则可说明数学模式,可以帮助预测选定变量的值,但缺乏与有害蓝藻水华的直接或间接的物理原因。然而一些建模技术,如DTs、GPs和BNS能够提供预测规则,表明有害蓝藻水华与环境因素之间的因果关系,从而有助于基本的过程认识。在这个层面上,DD和PB模型都可以很好地相互补充地评估有害蓝藻水华。
监测和输入变量目前确定用于开发和验证有害蓝藻水华预测和预测模型的四种主要蓝藻监测方法:显微镜、色素分析、原位荧光法和遥感(图2)。传统的监测包括显微镜和色素分析。显微镜用于通过专家目视来估算细胞浓度和生物体积,并允许通过形态特征进行物种分类。然而,这种微观评估是非常耗时且昂贵的,而且需要熟练的专业人才。色素分析是指叶绿素a,也有时是通过实验室定量提取的化学色素或其他光学活性化合物,然后进行光谱、色谱或荧光分析。叶绿素a是一种色素,存在于包括蓝藻在内的所有浮游植物群中,因此它不能评估不同、不能区分物种。一般需要人工取样和运输到实验室分析,这会增加时间和成本,也会影响结果。最新的监测技术是指原位荧光法和遥感技术。原位荧光法是一种光学方法,通过特定的发射波长和激光波长来估计叶绿素a或藻蓝素(phycocyanin, PC)的色素浓度。光子吸收后细胞被激发,然后它们返回到原来的基激发状态。在返回过程中,能量较低的光子从细胞中发射并通过荧光发射测量出来。可以在湖中安装几个监测探头,提供高频数据(采样间隔在秒和小时之间),这样的监测成本相对较低。然而,由于多个潜在的光干扰,就需要在特定地点通过传统的采样进行持续的数据校准。在垂直剖面系统(VPS)中,叶绿素a和PC荧光探头可以与其他探头(例如测量浊度或荧光溶解有机物)一起安装,提供整个水柱的实时数据。这一技术已被世界各地许多自来水公司采用,并成为大多数实时水质监测技术的方法基础。由于PC主要是蓝藻特有的色素,它可以提供蓝藻群体的生物量、生物体积或细胞密度的估计值。然而它不能区分蓝藻不同物种。遥感监测依靠蓝藻的光学特性,利用卫星多光谱传感器,无人机或飞机。哨兵3号是一个广泛使用的观测卫星,该卫星的任务是支持多种环境的应用,如海面地形测量、海洋和陆地表面、温度测量、内陆水体监测、天气预报、水和土地颜色测量等。从观测卫星的图像中,已经获得了许多经验、半经验和分析算法来提取特定的频带,并估计水体整个表面的叶绿素a和PC。与传统的取样监测相比,该技术可以为用户提供低成本、高效率的有害蓝藻水华的空间信息,考虑到已经部署的卫星和广泛获取的卫星图像。然而,信息的质量取决于天气条件(例如云量会阻碍其应用)。遥感范围仅限于地面和近地下水域,还需要对具体地点进行校准。多(超)光谱信号缺乏足够空间和时间分辨率的数据,也被认为是利用遥感技术预测有害蓝藻水华的关键限制。使用这种方法对PC进行准确估计仍然是一个挑战,这可能限制了它作为有害蓝藻水华模型中数据源的使用。有趣的是,即使遥感和原位荧光法可提供一个高的时空分辨率,低成本的解决方案,来估计湖泊的表面的叶绿素a或PC,但是很少有研究将这两种监测技术结合起来。
数据质量是预报和预测模型性能的基础。因此,考虑到监测的特殊性(例如,定量化方法、采样频率、地点、时间和深度等)至关重要。评估不同的蓝藻监测方法是否会影响加拿大伊利湖有害蓝藻水华模型的性能。对于每一种监测方法,有研究者开发了一个增强的回归树模型来预测季节性和年度的蓝藻动态。对于每种监测技术来说,模型预测性能和所识别的有害蓝藻水华的驱动因素并不相同,这说明了监测方法对模型的结构和准确性来说是十分重要的。开发DD预报模型,显微镜和色素分析技术是收集蓝藻数据最常用的方法。这些技术比荧光和遥感等新传感技术有更高的精准度,但仍然具有局限性。有研究通过在显微镜分析前仅改变采样量,评估了乌拉圭Salto Grande水库铜绿微囊藻的检测效率和预测精度。他们发现,样本量的增加显著提高了预测性能。