一种基于多源数据的玉米最优种植密度构建方法

2026-05-05 12:20:07 222次浏览

本发明涉及农业生产，具体为一种基于多源数据的玉米最优种植密度构建方法。

背景技术：

1、粮食安全是当前全球关注的重要议题。玉米作为一种重要的经济作物，在粮食供应还和工业生产中都起着重要的作用，直接影响我国农业的发展。在耕地资源日益紧张的背景下，如何在有限的耕地下提高玉米产量，构建高产玉米群体是一个亟待解决的问题。作物产量提高是品种、气候环境、土壤和农业管理综合作用的结果，相较于作物品种的改良，提高种植密度是最显著的增产手段之一，较低的种植密度往往会造成土地资源的浪费，而过高的种植密度则会影响作物的生长发育。因此，确定区域玉米的最优种植密度opd，构建不同地区的玉米高产群体，是提高玉米产量的关键。

2、目前，关于区域玉米的最优种植密度opd的研究大多基于农场实验，还处于田块实验阶段，由于各地区环境条件的差异，这些研究结果难以直接应用于大区域的农业生产，同时，现有对玉米opd的研究中，较少关注玉米品种在不同地区的差异，不同品种的株型和生育期有所差异，往往在种植过程中对opd造成影响，现有的最优种植密度构建方法仍不完善，模型精度较低，难以满足实际农业管理的需求。

技术实现思路

1、本发明的目的在于提供一种基于多源数据的玉米最优种植密度构建方法，以解决上述背景技术中提出的问题。

2、为了解决上述技术问题，本发明提供如下技术方案：一种基于多源数据的玉米最优种植密度构建方法，包括以下步骤：

3、s1：从中英文文献数据库中通过关键词检索，获取玉米密度试验数据；

4、s2：将密度梯度与产量数据进行二次拟合，定义拟合曲线最高点的密度为最优种植密度opd；

5、s3：对数据中的异常值进行处理，筛选最优种植密度opd数据集；

6、s4：根据研究区域的大小，选择相应的分辨率数据网格及其坐标系统，并进行土壤和气象数据的样点采集；

7、s5：筛选与最优种植密度opd相关的协同变量，包括土壤、气象和作物因子；

8、s6：基于协同变量构建机器学习模型，进行区域最优种植密度opd的空间预测制图。

9、进一步的，在步骤s1中：基于国内外文献数据库，通过“产量”、“密度”、“玉米”和“中国”关键词检索玉米种植密度试验相应期刊和硕博论文，确保了涵盖国内外相关研究的数据来源，选取论文数据包括独立试验地点、作物品种、种植密度及其产量信息，确保了数据的全面性和多样性，选取规则主要包括以下五点：在特点区域进行的田间实验，不包括温室和盆栽，保证了数据的环境一致性；在给定的田间试验中评估的植物密度超过三个水平，确保了数据的代表性和可靠性；提供特定的产量信息，不包括模型模拟的产量，保证了数据的真实性和准确性；有试验地点信息；胁迫及间套作试验不考虑在内，数据提取主要通过文章表格中获得，对于仅以图形显示的数据，使用getdata和graph digitizer软件提取相应值，严格的选取规则和标准化的数据提取方法，确保了数据集的内部一致性，使用专用软件提取图形数据，提高了数据提取的效率和精度，减少了手工数据提取的误差和工作量。

10、进一步的，在步骤s2中：将每项独立试验的密度梯度进行二次拟合，定义拟合曲线最高点的密度为最优种植密度opd，对应的产量为最优密度产量，此时的产量为该区域可达到的最大产量，获取每个样本的对应最优种植密度opd值；剔除无法反映真实最优种植密度opd的数据，即拟合二次函数开口向上a>0及开口向下a<0中opd为原处理中最大或最小密度的数据，有效去除了偏离正常范围的异常值，保证了数据的真实性和可靠性，统计剩余拟合结果的最优种植密度opd数据，构建最优种植密度opd数据集，作为预测结果数据集。

11、进一步的，在步骤s3中：对获得的最优种植密度opd数据进行进一步的数据清洗，采用z-score方法和iqr方法进行异常点去除和除噪声处理，清洗后的数据符合正态分布，用于作为机器学习的因变量。

12、进一步的，在步骤s4中：根据研究区域的大小，选择相应的分辨率数据网格及其坐标系统，并进行土壤和气象数据的样点采集，具体步骤如下所示：

13、s4-1：将作物生育期信息、土壤信息、气象信息和作物的基因型数据作为协同变量进行补充，通过发布的作物数据平台获取作物生育期信息：通过国家土壤信息网格基本属性数据集获取土壤信息，包括土壤有机碳、酸碱度、全氮、全磷、全钾、阳离子交换量、土壤质地类型、土壤容重和土体厚度，确保土壤信息的全面性和详细性；通过时空三极环境大数据平台获得气象数据，包括生育期降雨量、积温、日均最低温、平均高温和潜在蒸散量，全面反映了气候条件对玉米生长的影响；通过数据平台已有的属性图获取作物的基因型数据，包括品种株型和生育期信息，通过多种数据平台获取土壤信息、气象信息和作物的基因型数据，使得数据集涵盖了影响玉米生长的多种关键因素；

14、s4-2：统一坐标系统和定义格网，包括：将不同实验地点的点位信息与土壤及气象数据统一至相同的坐标系统中，确保了所有数据在同一空间参考系下的对齐，提取对应点位的土壤和气象数据，通过统一坐标系统和定义格网，提取每个实验点位的土壤和气象数据。

15、进一步的，在步骤s5中：使用lasso回归和主成分分析pca筛选与最优种植密度opd相关的协同变量，包括选取土壤容重、全氮含量和土壤酸碱度作为土壤因子，选取生育期降雨量、积温、日均最低温、平均高温和潜在蒸散量作为气象因子，选取玉米株型和生育周期时间作为作物因子，共选取10个协同变量用于随机森林模型训练，其中，玉米株型划分为紧凑型、中间型和平展型，应用特征工程将其转化为数字标签，紧凑型用数字标签‘1’表示，中间型用数字标签‘2’表示，平展型用数字标签‘3’表示，通过使用lasso回归筛选变量，成功消除了多重共线性问题，减少了不必要的噪声变量，从而提升了模型的稳健性和预测精度，同时通过pca降低数据维度，提取主要特征，进一步提高了模型的计算效率和预测准确性；自动化筛选关键协同变量，降低了手动选择变量的复杂度，提升了数据处理和分析的效率，筛选出的协同变量涵盖了土壤、气象和作物三大类因素，使模型预测结果更具解释性和可信度，有助于理解各因素对玉米最优种植密度的影响。

16、进一步的，在步骤s6中：基于协同变量构建机器学习模型，进行地区最优种植密度opd的空间预测制图，具体步骤如下：

17、s6-1：针对获取的数据集，以样点坐标的最优种植密度opd作为因变量，以样点对应的协同变量作为自变量，构建用于预测最优种植密度opd的机器学习模型，利用多源数据涵盖影响玉米种植密度的多种因素，增强了模型对复杂环境变量的综合预测能力；

18、s6-2：通过随机森林模型作为预测模型提升预测精度；

19、s6-3：在定义好的格网中，获取未知点位的协同变量值，将其代入到训练好的随机森林模型中，可以获得该格网的最优种植密度opd预测值，遍历每个格网，可以实现对地区的opd空间分布预测。

20、进一步的，在步骤s6中：计算均方根误差rmse、相对均方根误差rrse和决定系数r2，各指标的计算公式如下：计算均方根误差rmse：

21、

22、计算相对均方根误差rrse：

23、

24、计算决定系数r2：

25、

26、其中，yi表示第i个观测值，表示第i个预测值，表示观测值的平均值，n表示样本数量，通过计算均方根误差rmse、相对均方根误差rrse和决定系数r2评估随机森林模型的精度。

27、与现有技术相比，本发明所达到的有益效果是：本发明通过“产量”、“密度”、“玉米”和“中国”关键词检索中英文文献有关玉米种植密度试验相应期刊和硕博论文，获得特定区域的玉米密度试验数据，确保了数据的全面性和代表性，对梯度数据进行二次拟合获得试验点处最优种植密度opd，可以提高opd的数据精度，适用于大范围的研究，使用lasso回归和主成分分析pca筛选与最优种植密度opd相关的协同变量将与玉米生长发育相关的品种数据、土壤数据和环境数据作为协同变量，种植密度作为因变量，相关协同变量作为自变量，构建随机森林模型实现对区域玉米opd的空间预测，克服了传统插值方法中数据不符合正态分布和空间异质性强的问题，同时实现了区域高精度的opd预测，为实际农业生产中的玉米种植和产量提升提供了重要参考。

文档序号 : 【 40164256 】

技术研发人员：向海涛,雷仁清,解鹏,周健民
技术所有人：中国科学院南京土壤研究所

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

向海涛丨雷仁清丨解鹏丨周健民丨中国科学院南京土壤研究所

一种用于纸质文献三维扫描的智能自动修复的方法与流程基于SLSQP的脐带缆截面布局优化方法