Welcome to visit Anhui Agricultural Science Bulletin!

Establishment and evaluation of YOLOv5s cotton leaf disease and pest detection model integrating multi-scale features and target attention

  • Shang Peng 1, 2 ,
  • En Dakai 1, 2 ,
  • Jing Xiaojie 1 ,
  • Liu Zhaojie 1 ,
  • Zhang Weidong 1 ,
  • Zhang Xiao 1, 2
Expand
  • 1. College of Information Engineering, Tarim University, Alar 843300, China
  • 2. Key Laboratory of Tarim Oasis Agriculture and Education, Tarim University, Alar 843300, China

Received date: 2025-08-17

  Online published: 2026-03-12

Abstract

In response to the need to improve the efficiency of cotton disease and pest detection, this paper proposed an enhanced detection model named YOLOv5sMBT, based on YOLOv5s, for identifying cotton diseases and pests in leaf images. The model incorporates 3 key improvements over the original YOLOv5s framework: a multi-scale feature extraction network (Multi-scale) was constructed to enhance feature extraction capabilities; and a Transformer attention mechanism was integrated between the feature extraction network and the neck network, combined with the C3 module to form C3TR, thereby improving the model’s attention to target features; a BiFPN (Bidirectional feature pyramid network) structure was introduced to efficiently fuse shallow and deep features. A dataset of 2 179 leaf images covering 4 common cotton diseases and pests (Nesidiocoris tenuis, spider mite, wilting, aphid) was used for validation. The dataset was split into training, validation, and test sets in a 3∶1∶1 ratio. Experimental results showed that the YOLOv5sMBT model achieved a mean average precision (mAP) of 0.838, outperforming the original model (mAP of 0.799). This study provides a reference for the intelligent detection of cotton diseases and pests.

Cite this article

Shang Peng , En Dakai , Jing Xiaojie , Liu Zhaojie , Zhang Weidong , Zhang Xiao . Establishment and evaluation of YOLOv5s cotton leaf disease and pest detection model integrating multi-scale features and target attention[J]. Anhui Agricultural Science Bulletin, 2026 , 32(5) : 113 -117 . DOI: 10.16377/j.cnki.issn1007-7731.2026.05.026

棉花作为主要经济作物之一,在新疆地区种植面积较大。该作物在生长过程中易遭受病虫害的侵害,进而影响其产量与品质。棉花病虫害具有种类多、危害大、发生频繁等特点[1-2]。生产上,其病虫害种类识别以种植经验为主,以试验手段为辅,该方法成本较高、周期较长,因此,快速识别病虫害种类对于棉花安全生产具有重要意义。
图像处理技术发展迅速,被广泛应用于植物病虫害检测中。早期的处理手段需先对图像进行滤波、灰度化、二值化等预处理,以增强目标背景的信噪比[3-4];随后提取颜色、纹理和形状等目标特征[5-6];最后将提取特征与特征图库进行对比,或利用机器学习方法构建检测模型,如支持向量机[7]、决策树[8]、朴素贝叶斯[9]、随机森林[10]等。这些方法虽然具有较高的准确率,但流程较烦琐,同时鲁棒性较差。现阶段,随着深度学习研究的深入,相关学者将其应用于植物病虫害检测领域,汪志立等[11]基于ResNet模型,通过加入注意力机制、更换激活函数等手段实现对小样本病虫害的识别,准确率达99.15%。张书贵等[12]基于YOLOv8模型,构建多尺度多层级的网络结构,并基于Transformer设计注意力模块融合特征,在PV数据集上平均检测精度(mAP)值达88.7%。王泰华等[13]针对水稻害虫目标被物体遮挡以及害虫数量较多的问题,提出基于YOLOv5s模型,通过更换卷积单元、添加CBAM注意力机制,增强捕捉目标位置信息的能力,提升对目标区域的关注度,在水稻数据集上mAP值达94.3%。刘鹏等[14]针对桃病虫害特征小、不同病斑表征相似的问题,提出基于YOLOv7模型,该模型通过多尺度神经网络模型提升特征融合能力,对6种病虫害的mAP值达93.2%。谭彬等[15]通过融合Inception v3网络和RestNet网络提取的特征,实现柑橘的病虫害检测,对5种柑橘叶片识别准确率达98.49%。
深度学习方法在病虫害识别领域应用效果明显。据此,本研究针对提升南疆棉花病虫害识别效率需求,提出基于YOLOv5s模型,通过构建多尺度特征提取网络(Multi-scale),利用BiFPN融合不同层级特征,以及添加注意力机制的方法改进模型,以实现棉花病虫害叶片的准确高效识别。

1 融合多尺度特征与目标注意力的YOLOv5s模型建立

1.1 YOLOv5模型概述

YOLOv5网络是YOLO目标检测系列的一个分支,由特征提取网络、颈部网络、检测头3部分组成[16]。本研究使用YOLOv5 6.0版本,其主干网络主要由C3模块构成,包含3个卷积层以及若干个Bottleneck层模块,主干网络尾部模块采用SPPF模块,使用5×5卷积核代替了原来SPP结构中3组卷积核。颈部网络采用了PANet[17]网络结构,通过自上而下以及自下而上2条路径,构建特征金字塔,以增强不同尺度的传递语义信息。通过上采样的方式和自下向上的方式传递定位信息。头部网络则在3个不同尺度大小特征图上进行预测。损失函数包括边界框回归损失、置信度损失、分类损失。边界框回归损失使用CIoU_Loss函数,其他2种损失使用BCEWithLogitsLoss函数[18]。YOLOv5网络根据模块个数及模块输出特征图个数被分为YOLOv5n、YOLOv5s、YOLOv5m和YOLOv5l等版本,以适应不同任务。本研究为兼顾算法与速度,选用YOLOv5s作为基线算法,在原有框架下进行改进。YOLOv5网络结构如图1所示。
图1 YOLOv5网络结构

1.2 YOLOv5sMBT模型建立

1.2.1 构建Multi-scale

由于病害目标叶片在图中所占面积不定,同时拍摄图像大小尺寸不一,为提升目标检测精度,适应多尺度图像检测能力,构建了Multi-scale,在Multi-scale中,对原图进行7次下采样,颈部网络以及检测头也做了对应更改,分别在8倍、16倍、32倍、64倍和128倍下对采样特征图进行检测。

1.2.2 引入C3TR

将C3模块与Transformer模块结合,在主干与颈部之间增加C3TR(图2)。Transformer网络被广泛应用于图像处理、信号处理、自然语言处理等领域。为增强网络的特征提取能力,Transformer模块使用了多个并行的自注意力机制,形成了多头注意力机制[19]

1.2.3 引入BiFPN结构

YOLOv5的颈部网络采用PANet结构,通过自上而下以及自下而上2条路径,增强不同阶段特征的融合能力,将位置信息再次传入特征图当中,弥补FPN自上而下的单向流动融合深层与浅层特征的缺点[20]。加权双向特征金字塔网络(BiFPN)可在保证高级语义信息的前提下融合更多的浅层特征[21]。为了将底层位置信息与高层语义信息更好地融合在一起,在原有的颈部网络基础上使用了BiFPN,将多个底层特征跨越连接到最终的检测模块中,并使用快速归一化特征融合方法的融合特征。PANet、FPN、BiFPN网络结构如图3所示。
图3 PANet、FPN、BiFPN网络结构
融合多尺度特征、目标注意力与加权双向特征金字塔网络的YOLOv5sMBT模型框架如图4所示。
图4 YOLOv5sMBT网络结构框

2 YOLOv5sMBT模型评价

2.1 数据集的采集与预处理

本研究采用的数据采集于新疆阿拉尔地区棉花种植基地,采集了盲蝽、红蜘蛛、枯黄萎病、蚜虫4种病虫害叶片图像总计2 179张。为得到良好的训练效果,对采集图像使用翻转、亮度变化、加噪方式进行数据扩充至7 798张。数据集按照3∶1∶1的比例划分为训练集、验证集和测试集。各病虫害叶片示例如图5所示,图5A为盲蝽为害叶片,叶片上留有孔洞;图5B为红蜘蛛为害叶片,叶片上有大量红色斑点;图5C为枯黄萎病病叶,叶片上出现大量黄色斑点;图5D为蚜虫为害叶片,叶片上攀附了蚜虫。
图5 各病虫害为害叶片示例

2.2 实验平台与参数设置

本文所提算法的软硬件环境为CPU采用13 th Gen Intel(R) Core(TM) i5-13400F,频率2.50 GHz;GPU型号NVIDIA RTX4090D;显卡内存32 G;电脑内存32 G;采用深度学习Pytorch框架编程;使用python作为编程语言。
所有算法均设定输入图像大小为768像素×768像素,学习率为0.001,进行多次训练,每次训练150批次,每批次以32张图像为1组进行,所有训练均保证收敛。

2.3 评估指标

采用mAP、GFLOPS等指标评估所提算法。其中,mAP计算如式(1)~(4)。
P = T P / ( T P + F P )
R = T P / ( T P + F N )
A P = 0 1 P ( r ) d r
m A P = i = 1 k A P i k
式中,P为准确率,R为召回率; T P表示预测为正样本而实际也为正样本的个数、 F P表示预测为正样本而实际为假样本的个数、 F N表示预测为负样本而实际为正样本的个数;k表示检测类别数。单个类别的AP为P-R曲线与横纵坐标围成的面积,mAP为多个类别的AP的平均值。
GFLOPs是模型在执行过程中需要执行的浮点运算次数,单位是十亿次,其可以衡量模型的复杂度。通常情况下,该指标可衡量模型推理速度,与模型推理速度成反比。

2.4 消融与对比实验

为验证改进方法的有效性,通过逐次增加模块的方法,对比各模型性能指标,同时对比了YOLO系列最新的几种算法。
表1~2可知,3种改进方法均对模型精度的提升有积极影响,与原模型(A)相比,Multi-scale(B)结构的mAP提升了0.017,BiFPN结构(C)提升了0.013,C3TR结构(D)提升了0.006;YOLOv5sMBT模型相对于原有模型mAP值提升了0.039。改进后的模型精度整体优于其他YOLO系列算法(YOLOv9s、YOLOv10s)。
表1 算法改进模型
模块 A B C D E F G YOLOv5sMBT
Multi-scale
BiFPN
C3TR

注:√表示模型包含该模块。

表2 消融实验与各算法对比
模型 AP mAP GFLOPS
盲蝽 红蜘蛛 枯黄萎病 蚜虫
A 0.697 0.868 0.924 0.708 0.799 16.0
B 0.723 0.896 0.903 0.743 0.816 18.0
C 0.718 0.891 0.911 0.726 0.812 16.0
D 0.726 0.879 0.898 0.719 0.805 16.1
E 0.769 0.903 0.920 0.741 0.833 18.0
F 0.733 0.884 0.911 0.750 0.820 18.1
G 0.711 0.911 0.900 0.744 0.816 16.1
YOLOv9s 0.737 0.897 0.935 0.756 0.831 26.7
YOLOv10s 0.678 0.896 0.894 0.735 0.801 24.8
YOLOv5sMBT 0.797 0.887 0.914 0.755 0.838 18.1

2.5 检测结果可视化

3种改进方法均可有效提升模型精度。Multi-scale结构可适应不同大小的目标,从不同的视觉角度挖掘目标;BiFPN结构增强了特征融合能力,替换了简单的特征图拼接融合方法,增强了特征提取能力;C3TR结构使模型聚焦于目标区域。增加C3TR后的热力图变化如图6所示,加入C3TR后的模型对含有蚜虫的目标区域注意力更为集中。
图6 加入C3TR前后热力图展示

(A)~(C)分别为原图、未加入C3TR的热力图以及加入C3TR的热力图。

表1~2所示,每种模型对4类病虫害的检测性能存在差异,红蜘蛛与枯黄萎病2种类别的AP值较高,盲蝽、蚜虫2种类别的AP值较小。如图7所示,盲蝽为害会使叶片上出现孔洞或边缘出现缺角,这种损害容易与叶片边缘处的不规则区域混淆,导致模型对边缘缺角损害的判别能力减弱。受为害叶片表面聚集大量蚜虫,图像上蚜虫数量多,分布广泛,同时叶片密集,导致模型会误判部分正常叶片区域为目标。红蜘蛛与枯黄萎病叶片的特征较为明显,从叶片颜色即可区分,因此识别结果较好。如图7A所示,蓝色框为模型将正常叶片标记为盲蝽为害叶片,图7B中,蓝色框叶片由于与蚜虫为害叶片距离较近,模型将正常叶片标记为蚜虫为害叶片。
图7 盲蝽(A)与蚜虫(B)病害误检叶片示例

3 结论

本文针对提高棉花病虫害检测效率需求,提出基于改进YOLOv5s模型,通过构建多尺度网络结构、引入BiFPN结构以及更换C3TR模块3种方法提升模型精度,研究表明,3种方法均有助于提升模型对棉花病虫害的检测能力,最终的改进模型在识别精度与复杂度方面优于原模型。后续将采集更多的病虫害数据集,同时提高模型推理效率,为棉花病虫害的智能检测提供技术支撑。
[1]
芦屹,李晶,魏新政,等. 新疆棉花蚜虫综合防治技术规程[J]. 中国棉花202249(1):38-41.

[2]
杨秀芹. 棉花病虫害全程绿色防控技术的应用与推广研究[J]. 河北农机2023(8):57-59.

[3]
于庆豪. 基于数字图像处理的高超声速来流中横向喷流干扰研究[D]. 太原:中北大学,2024.

[4]
张晶,周稻祥,吴永飞,等. 联合度量指标损失和U-Net的文档图像二值化[J]. 计算机工程与设计202445(8):2400-2406.

[5]
陶森浩. 基于纹理特征的中药材粉末显微图像识别研究[D]. 北京:北方工业大学,2023.

[6]
王远强. 烟叶特征数字要素表征与分级方法研究实现[D]. 昆明:昆明理工大学,2023.

[7]
李警波,李密生,唐博,等. 基于支持向量机的白菜叶部常见病害识别[J]. 河北科技师范学院学报202034(3):53-57,84.

[8]
黄以宝. 基于无人机图像的荔枝果实计数与产量预测模型研究[J]. 信息与电脑202436(14):9-11,15.

[9]
李雯雯,李喜媛,周健,等. 基于全卷积神经网络和朴素贝叶斯数据融合的桥梁裂缝识别算法[J]. 公路交通科技202340(2):44-52.

[10]
吴瑞姣. 结合面向对象卷积神经网络和随机森林的马尾松识别[J]. 测绘与空间地理信息202447(10):50-53,58.

[11]
汪志立,王定成,曹蓉,等. 融合注意力机制和二次特征提取的ResNet小样本农作物病虫害识别[J]. 计算机系统应用202433(9):208-215.

[12]
张书贵,陈书理,赵展. 改进YOLOv8的农作物叶片病虫害识别算法[J]. 中国农机化学报202445(7):255-260.

[13]
王泰华,郭亚州,张家乐,等. 基于改进YOLOv5s的水稻害虫识别研究[J]. 农业机械学报202455(11):39-48.

[14]
刘鹏,周鑫,孙博,等. 基于改进YOLOv7的肥城桃病虫害识别方法[J]. 山东农业科学202456(8):150-157.

[15]
谭彬,蔡健荣,许骞,等. 基于注意力机制改进卷积神经网络的柑橘病虫害识别[J]. 江苏农业科学202452(8):176-182.

[16]
陈科. 基于机器视觉和改进YOLOv5s的鲫鱼病害轻量级无损检测模型研究[D].杭州:浙江科技大学,2023.

[17]
Liu S Qi L Qin H F,et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. New York: IEEE,2018:8759-8768.

[18]
刘爽,田兆星,李浩然,等. 一种基于改进YOLOv5s网络的结直肠腺瘤实时检测方法[J]. 河北大学学报(自然科学版)202242(3):327-336.

[19]
周录庆,贾可,冯翱,等. 融合自注意力机制改进ResNet的图像分类方法[J]. 软件导刊202423(10):173-178.

[20]
Lin T Y Dollár P Girshick R,et al. Feature pyramid networks for object detection[C]//Proceedings ofthe IEEE international conference on computer vision. IEEE,2017:936-944.

[21]
Tan M X Pang R M Le Q V. EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on computer vision and pattern recognition (CVPR). IEEE,2020:10778-10787.

Outlines

/