基于多源数据及三层模型的小班林型识别
浙江农林大学数学与计算机科学学院,林业感知技术与智能装备国家林业和草原局重点实验室,浙江 杭州 311300
Identification of sub-compartment forest type based on multi-source data and three-tier models
College of Mathematics and Computer Science,Zhejiang Agriculture and Forestry University, Key Laboratory of National Forestry and Grassland Administration on Forestry Sensing Technology and Intelligent Equipment,Hangzhou 311300, China
第一作者:
责任编辑: 吴祝华, 林志
收稿日期: 2021-09-19 接受日期: 2021-11-2
基金资助: |
|
Received: 2021-09-19 Accepted: 2021-11-2
【目的】目前关于林型识别的研究区域主要为小范围森林区域和林场,为了探究较大范围内林型的识别方法,本研究使用Sentinel-2光学遥感影像、森林资源二类调查数据、数字高程模型(DEM)和Sentinel-1雷达遥感影像数据建立林型识别模型。【方法】以淳安县作为研究区域,针对淳安县各个小班中的7种林型:毛竹(Phyllosstachys edulis)林、茶树(Camellia sinensis)林、山核桃(Carya cathayensis)林、杉木(Cunninghamia lanceolata)林、马尾松(Pinus massoniana)林、阔叶混交林、其他硬阔林进行识别。研究采用分层的方法对林型进行识别,整体分为3层。第1层使用RF算法建立林地与非林地识别模型;第2层对林地数据进行树种结构识别,分别使用随机森林(random forest, RF)、极端梯度提升(eXtreme gradient boosting, XGBoost)和 轻量级梯度提升机(light gradient boosting machine, LightGBM)方法建立不同模型并对比分析实验结果;第3层将树种结构细分为林型。【结果】第1层RF林地与非林地识别模型总体精度为98.08%;第2层树种结构识别模型中对比了3个模型不同特征组合下的性能,其中LightGBM模型总体精度最高,达到81.43%;第3层模型对林型进行识别,基于所有特征结合雷达遥感因子建模的情况下,LightGBM模型精度为84.51%,经递归特征消除法(recursive feature elimination, RFE)选择特征后,最优精度为83.21%。【结论】通过各个模型的特征重要性图发现,光学遥感中的绿光、红光、近红外波段和红边波段,以及DEM提取的地形因子对研究区域小班林型识别有较好的效果,而Sentinel-1雷达中提取的自变量对林型的识别没有特别明显的帮助。
关键词:
【Objective】 Currently, forest type identification research is mainly focused on small forest areas and forest farms. To explore the forest type identification method across a large range, this study used Sentinel-2 optical remote sensing imagery, forest resource survey data, a digital elevation model (DEM), and Sentinel-1 radar remote sensing image data to establish tree species identification model.【Method】 The research area was defined as Chun’an County, where seven forest types were modeled separately, including Phyllosstachys edulis forest, Camellia sinensis forest, Carya cathayensis forest, Cunninghamia lanceolata forest, Pinus massoniana forest, broad-leaved mixed forest, and other hard broad-leaved species. Models were divided into three layers. In the first layer, the RF algorithm was used to establish the identification model of forested land and non-forested land. In the second layer, forest structure was identified from forested land. The RF, XGBoost and LightGBM methods were used to build various models and analyze the experimental results. In the third layer, the forest structures were further divided into forest type.【Result】 The overall accuracy of the first-layer model based on the RF algorithm dividing samples into forested and non-forested land samples was 98.08%. In the second layer (i.e., forest structure recognition model), the performance of the three models under various feature combinations were compared. It was found that the LightGBM model had the highest overall accuracy of 81.43%. In the third layer, the performance indicators for seven forest type models were compared; based on the combination of all features and radar factors, the overall accuracy of the LightGBM model was 84.51%, after feature selection by the recursive feature elimination algorithm, the optimal accuracy was 83.21%.【Conclusion】 The green, red, near-infrared and red-edge bands from optical remote sensing imagery, and terrain factors from a DEM are effective in identifying the forest type. However, independent variables extracted from Sentinel-1 radar do not provide significant help to identify forest type.
Keywords:
本文引用格式
黄健, 吴达胜, 方陆明.
HUANG Jian, WU Dasheng, FANG Luming.
开放科学(资源服务)标识码(OSID):
李煜等[3]、张悦楠等[4]、蔡林菲等[5]使用遥感影像结合机器学习的方式对树种进行识别,均得到了较高的总体识别精度,3个研究结果均表明光谱信息是决定树种识别精度的主要特征变量。随着遥感技术的迅速发展,将光学遥感影像与雷达遥感影像相结合的方法在森林资源监测中的使用也越来越广泛,且在树种识别方面取得了较好的效果[6,7]。王瑞瑞等[8]使用机载多光谱数据与雷达点云数据,结合RF、SVM与ANN进行树种识别,总体精度达到了86.19%;徐逸等[9]采用XGBoost算法,以机载高光谱数据与雷达数据对红树林树种进行了分类,总体精度达到了96.74%;皋厦等[10]结合LiDAR与高光谱数据,使用RF算法构建树种识别模型,总体精度达到了91.30%。Persson等[11]使用Sentinel-2影像数据,结合RF对瑞典常见树种进行分类,总体精度达到了86.30%,研究表明近红外波段对树种的识别有重要的作用;Dalponte等[12]使用高光谱与多光谱数据融合激光雷达数据对南阿尔卑斯山区域特兰托的部分区域进行树种识别,经对比实验发现,高光谱数据结合激光雷达数据与多光谱数据结合雷达数据在对“森林” “非森林”和“阔叶林” “针叶林” “非森林”这两种宏观分类上没有明显差距,但在对树种进行精细分类时,高光谱数据结合激光雷达数据的效果更优。
淳安县的主要林型为阔叶林与针叶林,其中阔叶林中包含阔叶混交林、其他硬阔林、山核桃林(Carya cathayensis),针叶林中包括杉木(Cunninghamia lancelata)林与马尾松(Pinus massoniana)林,这些林种起到了保持水土、调控天气以及维持生物多样性等作用,同时也为人类生产生活提供了丰富的原材料,为可持续发展提供了坚实的物质基础。毛竹(Phyllosstachys edulis)与茶树(Camellia sinensis)林是研究区中经济林的重要组成部分,并带来了较可观的经济效益。由于淳安县面积较大,森林资源丰富,通过卫星遥感技术不易于树种的精细分类;而通过对淳安县小班中的林型进行识别,便于整个区域森林资源的经营与管理。故本研究将淳安县各小班的林型作为最终识别对象。
综上所述,关于优势林种识别的研究区域主要集中在林场或森林且都获取了较高的识别精度,但对于大范围内的林型识别研究较少[6],模型的泛化能力不够,为了进一步提高区域森林小班林型识别结果的可靠性与模型的泛化能力,并获取较高的识别精度,本研究集成Sentinel-2和Sentinel-1遥感影像、数字高程模型(DEM)和森林资源二类调查数据,将模型分为3层:首先使用RF建立林地识别模型,再使用RF、XGBoost、LightGBM建立树种结构识别模型,最后一层根据树种结构识别模型的识别结果,使用LightGBM进行林型识别,这是一个逐步求精的过程。本研究采用3层模型结构对大范围内的林型进行识别,以期获取相较于传统的单层模型更高的精度。
1 材料与方法
1.1 研究区概况
研究区域为浙江省淳安县(118°20'~119°20'E,29°11'~30°02'N),位于浙江省西部、杭州市西南部丘陵山区,白际山脉和千里岗山脉之间,新安江和千岛湖交汇之处,四面多山,中为丘陵,略呈盆地状,属北亚热带季风气候区。陆域面积4 417.48 km2,是浙江省陆域面积最大的县。淳安县中部是千岛湖区,生态环境较好,拥有33.332万hm2的森林面积,覆盖率高达75.27%。其中,包括了阔叶混交林、其他硬阔林、山核桃林、马尾松林、杉木林、毛竹林、茶树林这7种林型(表1)。
表1 树种结构分类及样本数量
Table 1
树种结构 forest structure | 样本信 息数量 sample size | 林型 forest type | 样本信 息数量 sample size |
---|---|---|---|
阔叶林 (含阔叶混交林) broad-leaved forest (including broad- leaved mixed forest) | 16 414 | 山核桃林 Carya cathayensis forest | 6 602 |
阔叶混交林 broad-leaved mixed forest | 4 644 | ||
其他硬阔林 other hard broad- leaved forest | 5 168 | ||
针叶林 coniferous forest | 15 550 | 马尾松林 Pinus massoniana forest | 5 965 |
杉木林 Cunninghamia lancelata forest | 9 585 | ||
经济林 no-woods forest | 18 601 | 毛竹林 Phyllosstachys edulis forest | 9 830 |
茶树林 Camellia sinensis forest | 8 771 |
1.2 遥感影像数据
1.2.1 光学遥感影像
本研究使用的光学遥感影像数据来源于欧洲航天局哥白尼计划中的Sentinel-2卫星,成像时间为2017年10月29日—10月30日,共5景,影像可覆盖13个光谱波段[13]。
1.2.2 雷达遥感影像
本研究所用的雷达遥感影像来源于搭载合成孔径雷达的Sentinel-1卫星,成像时间为2017年10月18日,使用的是IW GRD级的2景影像数据。
1.3 地形因子
地形因子提取于先进星载热发射和反射辐射仪全球数字高程模型(ASTER GDEM)第2版,共4景,分辨率为30 m,公布时间为2017年。
1.4 实地调查数据
本研究的实地调查数据来自2017年的淳安县森林资源二类调查数据,其中包含了研究区域各森林小班的详细信息。
1.5 自变量提取
1.5.1光学遥感因子
光学遥感因子包括光谱特征因子和纹理特征因子。光谱特征因子:在Sen2Cor插件与SNAP软件中经过预处理将影像转为ENVI格式,去除Sentinel-2遥感影像中分辨率较低且与实验关系不大的3个波段(Band1为海岸/气溶胶波段,Band9为水蒸气波段,这两个波段对于本研究的意义不大,而Band10为卷云波段,获取的是大气顶部的反射率,并不是地表的反射率,在Sen2Cor插件中的大气校正步骤中自动删除),剩余10个波段;外加计算得到的4个植被指数,即比值植被指数(RVI)、增强型植被指数(EVI)、差值环境植被指数(DVI)、归一化植被指数(NDVI)[5,14]以及6个光学波段组合因子,共计20个光谱特征因子作为自变量(表2)。
表2 光谱特征因子
Table 2
自变量 因子类别 category of independent variable factors | 自变量 因子名称 name of independent variable factors | 量符号或公式 variable or the formula | 中文名称 Chinese name |
---|---|---|---|
遥感影像 波段信息 band information of remote sensing image | B2 | B2 | 遥感影像像元值 |
B3 | B3 | ||
B4 | B4 | ||
B5 | B5 | ||
B6 | B6 | ||
B7 | B7 | ||
B8 | B8 | ||
B8A | B8A | ||
B11 | B11 | ||
B12 | B12 | ||
植被指数 vegetation index | RVI | B5/B4 | 比值植被指数 |
EVI | 2.5×(B8-B4)/(B8+ 6×B4-7.5×B2+1) | 增强型植被指数 | |
DVI | B8/B4 | 差值环境植被指数 | |
NDVI | (B8-B4)/(B8+B4) | 归一化植被指数 | |
光学波段 组合因子 optical band combination factor | B8A_B4 | (B8A-B4)/(B8A+B4) | |
B8A_B7 | (B8A-B7)/(B8A+B7) | ||
B7_B6 | (B7-B6)/(B7+B6) | ||
B8A_B5 | (B8A-B5)/(B8A+B5) | ||
B6_B5 | (B6-B5)/(B6+B5) | ||
B8A_B6 | (B8A-B6)/(B8A+B6) |
纹理特征因子:对基于Sentinel-2光学遥感影像中空间分辨率最高(10 m)的Band2、Band3、Band4和Band8进行主成分分析,并选取第1主成分进行计算纹理特征值。在遥感影像的研究中,使用的滑动窗口大小一般不大于51×51像素[15],所以本研究共使用了13个大小为3×3像素至51×51像素,方向为135°,且移动步长为1像素的滑动窗口进行对比。各个窗口提取均值(mean)、同质性(homogeneity)、熵(entropy)、非相似性(dissimilarity)、对比度(contrast)、相关性(correlation)、方差(variance)和二阶矩(second moment)8个纹理特征值[16,17,18]参与后续实验。
1.5.2 雷达遥感数据提取特征
使用SNAP软件对Sentinel-1雷达遥感影像数据进行轨道校正、消除边界噪声、去除热噪声、抑制相干斑噪声、辐射定标、分贝化等操作,得到VV(垂直发射,垂直接收,同向极化)和VH(垂直发射,水平接收,交叉极化)两种极化方式的后向散射系数,并将VV和VH进行相减和相除,共得到4个雷达遥感因子。
1.5.3 地形特征提取
将获取的4景DEM在ArcGIS中进行坐标系转换、拼接和裁剪后,提取研究区域的海拔、坡度、坡向这3个地形因子。
1.5.4 森林资源二类调查数据
二类调查数据中的腐殖质厚度表示为:薄、中、厚。由于这两个特征因子并没有详细的数值且相互之间存在递进的数学关系,本研究采用了标签编码的方式(编码薄为0,中为1,厚为2)。土层厚度在二类数据中有具体的数值表示,故不需要进行编码。
综上所述,本研究共使用37个特征因子,其中光谱特征因子20个,纹理特征因子8个,雷达遥感因子4个,地形因子3个,森林资源二类调查因子2个。
1.6 总体路线
以小班为研究单元,集成Sentinel-2、Sentinel-1、DEM及森林资源二类调查数据,提取自变量因子数据,并将各个因子使用不同的组合方式进行建模。第1层模型使用RF模型识别林地与非林地;第2层使用RF、XGBoost、LightGBM模型识别林地上的树种结构类型;第3层使用上层中的最优方法结合雷达遥感数据识别林型。具体流程如图1所示。
图1
2 研究方法
2.1 建模算法
1)随机森林(RF)。使用Boostrap重采样算法对原始数据集进行有放回的横向欠采样与纵向欠采样,得到若干份数据集。使用每一份训练集训练1棵决策树,所有的决策树集成后构成随机森林,最终的分类结果由各子树投票进行决定,得票数最多的识别结果作为随机森林的最终结果。本研究设置了最大特征数为总特征数量的平方根,子树的数量设置为250棵。
2)极端梯度提升(XGBoost)。该算法的基础学习器之间存在线性的相关性,通过特征预排序机制,减少了迭代过程中的计算量,每次迭代对残差进行拟合。基础学习器采用了与RF相似的特征降采样,降低过拟合的风险。XGBoost模型采用决策树作为基学习器,子树数量设为250棵,最大深度为6,每棵决策树使用80%的训练集样本与80%的特征进行构建,学习率默认为0.3。
3)LightGBM。该算法与XGBoost都是提升算法,其最明显的特点是在训练的过程中可以将连续型特征离散化,类似于数据分箱操作,将连续数据进行分段划分,并装入对应的箱子中,大大减少计算量,并且支持类别特征直接输入。在子树的生长过程中采用了leaf-wise生长策略,减少了无效节点分裂,提升树设为250棵,学习率设为0.2,最大深度设为6。
2.2 数据处理
1)本研究中3层模型都以7∶3的比例进行训练集与测试集的划分,并构建模型。其中,二类数据中提取的树种结构信息与林型信息作为模型的标签,用于精度验证,模型评价指标采用了用户精度(user accuracy, UA)、生产者精度(producer accuracy, PA)、总体精度(overall accuracy, OA)以及Kappa系数。
2)本研究获取的森林资源二类调查数据中共包含了133 429条小班数据,剔除残缺的数据以及小样本树种与灌木林地数据,保留共65 542条林地数据与4 094条非林地数据。
3)由于第1层中的正负样本不均衡,为了提高识别结果中林地数据的纯度,林地识别模型中采用了4种过采样算法:合成少数类别过采样技术(synthetic minority oversampling technique, SMOTE)、边界过采样(borderline-SMOTE)、支持向量机过采样(SVM-SMOTE)、自适应过采样(adaptive synthetic sampling, ADASYN)。为了避免正负样本的边界模糊,从过采样后的数据集中提取了90 000条数据用于模型构建,其中63 000条数据用于模型训练,27 000条数据用于精度测试。训练集中林地数据45 890条、非林地数据17 110条,测试集中林地数据19 652条、非林地数据7 348条。
4)林种结构识别模型使用来自第1层模型中识别结果为林地的数据,将获取的林地数据使用拉依达准则[21]进行筛选,剔除了270条识别错误的数据以及14 345条异常数据,剩余50 565条林地数据。从中提取11 480条阔叶林数据、10 957条针叶林数据、12 957条经济林数据作为训练数据,剩余数据用于模型精度测试。
5)在第3层林型识别时,共使用阔叶混交林3 271条、其他硬阔林3 624条、山核桃林4 585条、杉木林6 742条、马尾松林4 215条、毛竹林6 850条、茶树林6 107条数据进行模型的训练,其余数据用于模型精度验证。
2.3 模型构建
林型的识别通过分层模型的方法实现:1)第1层林地与非林地识别模型基于RF与过采样算法构建,将识别结果为林地的数据用于林种结构识别。
2)第2层树种结构识别模型将第1层模型识别结果中的林地数据作为数据集,使用RF、XGBoost、LightGBM进行构建。
3)第3层林型识别模型使用第2层对比实验中的最优建模算法进行构建,并将第2层模型的识别结果作为类别特征。为了探究雷达遥感因子及特征选择对模型精度的影响,设计了3种遥感因子及特征选择方案。
3 结果与分析
3.1 林地与非林地识别
表3 不同过采样算法下的RF模型精度
Table 3
过采样算法 oversampling algorithm | 用户精度/% UA | 总体精度/% OA | |
---|---|---|---|
林地 forest | 非林地 non-forest | ||
SMOTE | 99.06 | 93.10 | 98.70 |
Borderline-SMOTE | 98.28 | 92.94 | 97.96 |
SVM-SMOTE | 98.35 | 92.62 | 98.00 |
ADASYN | 98.48 | 94.95 | 98.27 |
图2
3.2 树种结构识别
将第1层模型中识别结果为林地的数据进行筛选后,利用RF、XGBoost、LightGBM这3种算法模型,使用如下4个自变量组合方案进行建模。方案1为光谱特征因子;方案2为光谱特征因子、森林资源二类调查因子;方案3为光谱特征因子、森林资源二类调查因子、地形因子;方案4为光谱特征因子、森林资源二类调查因子、地形因子、纹理特征因子,其中前3种方案得到9种建模结果。测试数据在9个模型上的精度表现,如表4所示。
表4 基于3种自变量组合方案及3种算法模型的精度比较
Table 4
模型 model | 方案 plan | 用户精度/% UA | 总体 精度/% OA | 模型 训练 时间/s model training time | ||
---|---|---|---|---|---|---|
阔叶林 (含阔叶混交林) broad-leaved forest (including broad- leaved mixed forest) | 针叶林 coniferous forest | 经济林 no-woods forest | ||||
RF | 1 | 66.34 | 78.11 | 80.40 | 75.13 | 16.16 |
2 | 66.84 | 79.16 | 80.70 | 75.73 | 15.15 | |
3 | 67.86 | 79.38 | 81.21 | 76.31 | 18.90 | |
XGBoost | 1 | 70.94 | 79.74 | 83.84 | 78.44 | 49.45 |
2 | 71.75 | 80.22 | 84.02 | 78.92 | 52.89 | |
3 | 72.19 | 81.06 | 85.04 | 79.70 | 59.76 | |
LightGBM | 1 | 72.42 | 80.03 | 84.07 | 79.05 | 1.29 |
2 | 72.80 | 80.58 | 85.27 | 79.79 | 1.35 | |
3 | 73.96 | 81.71 | 85.93 | 80.76 | 1.45 |
对比表4中的9个实验方案的总体精度,可以发现,LightGBM模型方案3的结果最优,其总体精度达到了80.76%,且计算所需的时间也远少于RF和XGBoost模型,表现最佳。
表5 LightGBM方案4的模型识别精度
Table 5
窗口大小 sliding window size | 用户精度/% UA | 总体 精度/% OA | ||
---|---|---|---|---|
阔叶林 (含阔叶混交林) broad-leaved mixed forest | 针叶林 coniferous forest | 经济林 no-woods forest | ||
3×3 | 73.69 | 81.25 | 87.15 | 80.99 |
7×7 | 73.79 | 82.52 | 87.22 | 81.43 |
11×11 | 74.04 | 81.82 | 86.87 | 81.17 |
15×15 | 73.79 | 81.71 | 86.95 | 81.09 |
19×19 | 73.81 | 81.73 | 86.57 | 80.95 |
23×23 | 73.90 | 81.45 | 86.71 | 80.95 |
27×27 | 73.77 | 81.21 | 86.51 | 80.76 |
31×31 | 73.57 | 80.99 | 86.19 | 80.51 |
35×35 | 74.00 | 80.95 | 86.05 | 80.59 |
39×39 | 74.10 | 80.80 | 86.35 | 80.68 |
43×43 | 73.98 | 81.08 | 86.32 | 80.71 |
47×47 | 73.94 | 81.06 | 86.23 | 80.66 |
51×51 | 74.06 | 80.64 | 86.32 | 80.61 |
上述的LightGBM模型方案4的原始自变量集涉及33个因子,为降低模型的复杂度与建模成本,使用RFE将自变量个数由33个降为14个(其中包含了10个光谱特征因子、2个纹理特征因子、2个地形因子、0个二类数据因子),模型总体精度略有下降,由原来的81.43%下降到80.27%,识别结果混淆矩阵如图3所示。
图3
图3
基于RFE和LightGBM方案4的树种结构识别结果混淆矩阵
Fig.3
Obfuscation matrix for forestland type recognition based on the RFE and plan 4 of lightGBM model
基于RFE和LightGBM-4树种结构识别模型中的特征重要性如图4所示,光谱特征中Band3、Band4、Band6、Band11、Band12波段和B8A_B7、B6_B5、B7_B6光学波段组合因子在模型中贡献度较高。纹理特征中的均值(mean)、二阶段矩(second moment)和地形因子中的坡度(slope)、海拔(elevation)的贡献度也较高。
图4
图4
基于RFE和LightGBM方案4的树种结构识别模型的各特征重要性排序
Fig.4
Importance of features in LightBGM forest type recognition model based on the RFE and plan 4 of LightGBM model
3.3 林型识别
本研究涉及的林型主要有7类:阔叶混交林、其他硬阔林、山核桃林、杉木林、马尾松林、毛竹林、茶树林。
图5
图5
不同大小滑动窗口对应的模型精度
Fig.5
Model precision corresponding to sliding windows of different sizes
图6
图6
基于LightGBM-4及雷达遥感因子建模识别结果混淆矩阵
Fig.6
Confusion matrix of identification results was modeled based on LightGBM-4 and radar remote sensing factors
由图6可知:毛竹、茶树和山核桃林的识别精度较高,阔叶混交林和其他硬阔林的识别精度都比较低。从混淆矩阵来看,这两类林型有比较大的概率被识别成同一类,难以准确地将它们区分开,从而导致总体识别精度下降。针叶林中的识别结果来看,杉木林的识别效果优于马尾松林。
表6 基于LightGBM-4及3种雷达遥感因子及特征选择方案的建模精度对比
Table 6
林型 forest type | 雷达遥感因子及特征选择方案 radar remote sensing factor and feature selection scheme | |||||
---|---|---|---|---|---|---|
方案A plan A | 方案B plan B | 方案C plan C | ||||
用户精度/% UA | 生产者精度/% PA | 用户精度/% UA | 生产者精度/% PA | 用户精度/% UA | 生产者精度/% PA | |
山核桃林 Carya cathayensis forest | 91.87 | 92.93 | 92.32 | 93.24 | 92.32 | 93.05 |
阔叶混交林 broad-leaved mixed forest | 63.36 | 59.96 | 62.93 | 59.79 | 63.22 | 58.97 |
其他硬阔林 other hard broad-leaved forest | 60.43 | 63.00 | 59.97 | 63.34 | 57.97 | 62.27 |
杉木林 Cunninghamia lanceolata forest | 85.93 | 81.79 | 86.28 | 81.82 | 86.42 | 81.47 |
毛竹林 Phyllosstachys edulis forest | 94.86 | 94.32 | 94.46 | 94.19 | 95.03 | 93.83 |
茶树林 Camellia sinensis forest | 92.27 | 92.27 | 92.76 | 93.03 | 92.15 | 93.31 |
马尾松林 Pinus massoniana forest | 69.77 | 75.51 | 69.94 | 75.79 | 69.14 | 75.86 |
总体精度/% OA | 83.08 | 83.21 | 82.91 | |||
Kappa系数 | 0.80 | 0.80 | 0.80 |
图7
图7
基于LightGBM的林型识别的特征重要性排序
Fig.7
Feature importance ranking of forest type recognition based on LightGBM
图8
图8
淳安县树种结构与林型识别结果
Fig.8
Tree species structure and dominant tree species identification results in Chun’an County
由图8可知,本研究采用的方法对于淳安县林型有较好的识别效果,整体精度较高。
本研究同时基于LightGBM模型方案4(表4)及雷达遥感因子,构建一层模型直接对林型进行识别,识别结果如下所示:一层模型使用所有特征进行建模的总体精度为70.99%,RFE后特征建模精度为68.13%,模型训练时间为3.72 s;三层模型使用所有特征进行建模的总体精度为84.51%,RFE后特征建模精度为68.13%,模型训练时间为36.68 s。由模型对比结果可知:一层模型的林型识别结果相较于三层模型(RF-LightGBM-LightGBM)而言精度下降非常明显。这表明,三层模型逐步求精的识别方式比一层模型直接识别有更高的精度。
此外,从实验结果中发现,在林型识别模型中,阔叶混交林与其他硬阔林两种林型区分难度较大,识别精度较低,根据3个光谱特征距离对其进行分析,如图9所示。
图9
林海军等[22]计算了数据间的协方差(马氏距离),获取树种光谱特征之间的相似度,用于确定树种之间差异显著的波段,并剔除差异不显著的波段。在本研究中,通过图9中的3个光谱特征距离的对比可发现,山核桃、毛竹、茶树林的特征距离比其他林型的大,说明了这3种林型与其他林型的光谱特征差异较明显,容易与其他林型区分开,从而获得了较高的识别精度。由于阔叶混交林与其他硬阔林为多种树种混交生长,且研究区域属于丘陵地区,地表起伏变化较为明显,可能导致了“异物同谱”现象的发生,使模型对其识别难度增大。这两种林型的切比雪夫距离仅为15.5,说明两者之间的光谱特征差异非常小,无法找到2个林型间差异显著的波段,这可能是导致两种优势林种识别精度较低的主要原因。
4 讨论
本研究使用Sentinel-2光学遥感影像提取了光谱特征因子、纹理特征因子,结合Sentinel-1雷达遥感影像提取的后向散射系数与DEM提取的地形因子,进行林型识别模型的构建。经特征选择后,地形因子均保留了下来,可见在本研究中,地形与林型的识别精度有密切的联系。陶江玥等[23]研究中发现,地形因素与树种多样性容易导致光学遥感影像中“异物同谱”现象的发生,影响树种识别的精度。本研究中使用的3个地形因子补充了光学遥感因子的不足,且在模型中的贡献度较高,利于各林型的识别。此外,RFE后得到的特征集合中,绿光、红光、红边波段组合因子以及短波红外对林型识别也起到了重要的作用,这与陈继龙等[24]、张沁雨等[25]和Bolyn等[26]的研究结果相似。
近年来的研究发现,光学遥感影像数据结合雷达遥感影像数据结合可以提高树种识别的精度[27,28]。本研究同样使用了多源遥感数据对林种进行了识别,但雷达遥感自变量因子加入后,并未使模型的精度得到较明显的提升。胥为等[29]使用Sentinel-1雷达遥感影像对沼泽植被进行了提取,通过不同时相的影像提取后向散射系数对比发现,当植被在落叶期时,雷达发射的电磁波更容易穿透冠层,发生二次回波散射。本研究获取雷达遥感影像成像时间为2017年10月18日,部分阔叶树种准备进入冬眠期,叶片开始掉落,C波段SAR可能获取了接近于地表的后向散射系数,各树种之间的后向散射系数值差距变小,从而使4个雷达遥感因子在模型中的贡献度相较于其他特征因子来说不够显著。
本研究针对森林资源小班的林型识别进行研究,取得了较高的识别精度,后续工作可从如下几个方面继续探索和深化:
1)光学遥感影像与雷达遥感影像的成像时间为10月底,叶片变色与掉落使各林型之间的光谱特征与后续散射系数差距变小,后续研究若能获取成像时间为生长季的遥感影像,很有可能进一步提高识别精度。
2)本研究使用的Sentinel系列光学遥感影像的分辨率是10 m级的,下一步研究若能获取更高精度的遥感影像(如1 m级的高分系列遥感影像),也可能更有利于捕捉各种林型尤其是混合优势树种林型间更细微的差别。
3)本研究中纹理特征只使用了13种不同大小的窗口,对不同角度以及不同步长的滑动窗口可以再探究更多种组合,以期获取更丰富的纹理信息,提高模型的精度。实验中所用Sentinel-1雷达遥感影像也包含了丰富的纹理信息,后续实验可以尝试从雷达遥感影像中提取纹理特征因子进行模型构建。
4)本研究使用了4个植被指数和6个光学波段组合因子,在后续的研究中可以尝试使用如绿度植被指数(GVI)、垂直植被指数(PVI)等植被指数。
5)Sentinel-1星载雷达的灵活性较低,后续研究可以通过机载雷达等其他途径获取雷达遥感数据进行实验。
5 结论
本研究使用3层模型对研究区域内7类林型:山核桃林、阔叶混交林、其他硬阔林、马尾松林、杉木林、毛竹林和茶树林进行了识别,识别精度比单层模型有了明显的提高,本研究结论如下:
1)采用3层模型识别林型,第1层模型使用光谱特征因子对林地与非林地进行识别;第2层模型为树种结构识别模型,以第1层识别结果为林地的数据作为输入,识别3种树种结构,即阔叶林(含阔叶混交林)、针叶林、经济林;第3层模型为林型识别模型,以第2层模型识别的树种结构作为输入,进一步分类林型,特征降维后最终精度为83.21%。本研究还建立了只有一层的林型识别模型,特征降维后的精度仅为68.13%,这表明3层模型能够起到逐步求精的作用,对模型的优化起到了很好的效果。
2)当光谱特征、纹理特征、地形因子、二类数据共同作为自变量时,树种结构的识别精度最高,近红外波段、红边波段、短波红外以及红光和绿光在树种结构和林型识别的过程中起着比较重要的作用。DEM获取的地形因子对模型的贡献度较为明显,说明了研究区域内的林型分布与地形也有密切的关系。
3)对比RF、XGBoost、LightGBM 3个模型的结果发现,LightGBM模型在本研究的大样本数据上表现最佳。
4)使用不同窗口大小下的纹理特征因子参与模型构建,7×7大小窗口获取的纹理特征因子在树种结构识别模型中贡献度最高,而在林型识别模型中,51×51大小窗口获取的纹理特征表现最优。
5)从识别结果的总体精度及特征重要性排序结果均表明,雷达遥感因子对小班林型的识别影响并不明显。
参考文献
基于机载PHI高光谱数据的森林优势树种分类研究
[J]. ,
Classification of forest species using airborne PHI hyperspectral data
[J].
基于地面激光雷达点云数据的树种识别方法
[J]. ,
Tree species identification methods based on point cloud data using ground-based LiDAR
[J].
应用哨兵2A多时相遥感影像对树种的识别
[J]. ,
Tree species recognition with sentinel-2A multitemporal remote sensing Image
[J].
亚热带常绿林型遥感识别及尺度效应
[J]. ,
Remote sensing-based identification of forest types and the scale effect in subtropical evergreen forests
[J].
基于XGBoost的高分二号影像树种识别
[J]. ,
Tree species identification using XGBoost based on GF-2 Image
[J].
机载LiDAR和高光谱融合实现温带天然林树种识别
[J]. ,
Fused airborne LiDAR and hyperspectral data for tree species identification in a natural temperate forest
[J].
基于非参数分类算法和多源遥感数据的单木树种分类
[J]. ,
Individual tree species classification based on nonparametric classification algorithms and multi-source remote sensing data
[J].
基于多源遥感数据的输电线走廊树种分类
[J]. ,
Tree species classification of power line corridor based on multi-source remote sensing Data
[J].
无人机遥感与XGBoost的红树林物种分类
[J]. ,
Mangrove species classification with UAV-based remote sensing data and XGBoost
[J].
结合LiDAR单木分割和高光谱特征提取的城市森林树种分类
[J]. ,
Tree species classification in urban forests based on LiDAR point cloud segmentation and hyperspectral metrics extraction
[J].
Tree species classification with multi-temporal sentinel-2 data
[J]. ,
Tree species classification in the Southern Alps based on the fusion of very high geometrical resolution multispectral/hyperspectral images and LiDAR data
[J]. ,
欧空局哨兵卫星Sentinel-2A/B数据特征及应用前景分析
[J]. ,
ESA Sentinel-2A/B satellite:characteristics and applications
[J].
基于Landsat OLI和ETM+的杭州城市绿地地上生物量估算比较研究
[J]. ,
Estimation of above-ground biomass of urban green land in Hangzhou based on landsat OLI and ETM+ data
[J].
Machine learning for tree species classification using sentinel-2 spectral information,crown texture,and environmental variables
[J]. ,
高分二号影像树种识别及龄组划分
[J]. ,
Tree species and age groups classification based on GF-2 image
[J].
基于纹理信息CART决策树的林芝县森林植被面向对象分类
[J]. ,
Object-oriented forest classification of Linzhi County based on CART decision tree with texture information
[J].
利用随机森林和纹理特征的森林类型识别
[J]. ,
Identification of forest type based on random forest and texture Characteristics
[J].
基于机器学习算法的广西桉树适宜性研究
[J]. ,
Eucalyptus suitability in Guangxi based on machine learning algorithms
[J].
浙江省大叶榉树生境地群落数量分类与排序
[J]. ,
Quantitative classification and ordination of Zelkova schneideriana habitat in Zhejiang Province
[J].
基于空间分布与统计特性的海面远景目标检测方法
[J]. ,
Marine farsighted target-detection method based on spatial distribution and statistical characteristics
[J].
基于马氏距离法的荒漠树种高光谱识别
[J]. ,
Mahalanobis distance based hyperspectral characteristic discrimination of leaves of different desert tree species
[J].
基于机载激光雷达和高光谱数据的树种识别方法
[J]. ,
Automatic identification of tree species based on airborne LiDAR and hyperspectral data
[J].
基于多时相遥感观测的板栗林分布提取研究
[J]. ,
Extraction of chestnut forest distribution based on multi-temporal remote sensing Observations
[J].
高分六号遥感卫星新增波段下的树种分类精度分析
[J]. ,高分六号卫星具有覆盖广、多种分辨率、波段多的优势,能为遥感解译提供更丰富的信息。为探究高分六号卫星新增波段在森林树种识别上的应用,本文以覆盖根河市阿龙山林业局的一期高分六号宽幅影像为数据源,基于特征优化空间算法(Feature Space Optimization,FSO)和最大似然分类法,分别利用高分六号的前4个波段和所有波段(8波段)的光谱、纹理等特征进行了森林树种分类,并逐一添加新增波段特征确定了各波段的贡献率排名。结果表明:在加入了优选出的均匀性纹理、均值纹理和角二阶矩纹理3种纹理特征后,前4波段和8波段的分类精度比只基于光谱特征时的精度分别高出13.23%和24.63%;利用8波段信息比只利用前4波段在基于光谱特征上的精度高11.88%,在基于光谱+纹理特征上则高23.24%;基于8波段光谱+纹理特征的树种分类精度最高,达到68.74%,新增4波段的贡献率排名为B6>B5>B8>B7,说明新增红边波段对于本次树种分类试验的贡献率最高,能为北方树种识别提供有效帮助。
Tree species classification based on the new bands of GF-6 remote sensing satellite
[J].
Forest mapping and species composition using supervised per pixel classification of Sentinel-2 imagery
[J]. ,
Classification and observed seasonal phenology of broadleaf deciduous forests in a tropical region by using multitemporal sentinel-1A and landsat 8 data
[J]. ,
Tree species classification of forest stands using multisource remote sensing data
[J]. ,
基于Sentinel-1A雷达影像的崇明东滩芦苇盐沼植被识别提取
[J]. ,
Recognition and extraction of Phragmites australis salt marsh vegetation in Chongming tidal flat from sentinel-1A SAR Data
[J].
/
〈 | 〉 |