水文气象观测资料的完整性是水文模拟、水资源管理、水环境保护等领域进行相关计算而不可或缺的基石。受设备故障、传输中断、人为扰动、环境变化等多种因素影响,在水文气象观测资料的采集、存储、整理等阶段容易产生缺失值。传统的数据填补方法存在自适应性能力差、精度欠缺、模型单一等弊端,快速准确地利用已有数据进行填补,是水雨情监测亟待解决的关键问题。
随着地球大数据的逐渐形成以及遥感、地理信息系统、全球定位系统的高速发展,机器学习模型已被应用于多个领域。随着21世纪机器学习技术的进步,堆叠模型得到了广泛应用,并与集成学习方法相结合,形成了更复杂和有效的学习框架。研究选取1991年至2020年间浙江省东南方椒江流域的降水数据,考虑完全随机缺失、随机缺失和完全非随机缺失三种数据缺失类型。采用前馈神经网络、随机森林、支持向量机回归三种机器学习算法和以上述三种算法构建的多元线性回归新型填补方法,分别对三种类型与多种缺失率的降水数据进行填补。对上述四种方法进行对比分析与评估,揭示它们各自的优势和局限性。
图1 流程图
图2 机器学习模型构建方法
结果表明,构建的集合人工智能模型填补方法在各缺失类型和缺失率条件下的纳什效率系数平均值为0.85,同时在皮尔逊相关系数和百分比偏差上表现也更好。基于多元线性回归的集合人工智能填补方法可提高水文气象缺失数据填补的准确性和可靠性,从而推动水文气象数据处理的智能化发展,为水文气象领域的研究和决策提供更加可靠、高质量的数据支持。
图3 降雨数据填补结果与真实数据的对比分析
本文“Multiple Types of Missing Precipitation Data Filling Based on Ensemble Artificial Intelligence Models”近期发表在《Water》(中科院3区,影响因子:3.0)上。第一作者和通讯作者分别是浙江水利水电学院河口海岸防灾减灾与生态治理研究所的港航22-1班邱赫同学和陈浩博士,这项研究得到浙江省自然科学基金(ZCLQ24E0901、LZJWY22E090007)、浙江省教育厅科研基金(Y202352492)等项目资助。