Welcome to visit Anhui Agricultural Science Bulletin!

Classification of cigar fresh tobacco positive grade based on near infrared technology

  • DUAN Jie ,
  • ZHANG Cheng ,
  • ZHAO Gang ,
  • XIONG Tiane ,
  • ZHOU Houfa ,
  • HE Yuansheng ,
  • XU Jie ,
  • ZHANG Yongjun ,
  • YANG Honghui ,
  • HUANG Jinsheng ,
  • LI Benhui
Expand
  • Yunnan Tobacco Lincang Area Company, Lincang 677099, China

Received date: 2024-11-28

  Online published: 2025-03-13

Abstract

In order to explore the identification effect of the model established by near infrared spectroscopy on cigar fresh tobacco position grade, the cigar fresh tobacco position grade recognition model was selected as the research object, 634 cigar fresh tobacco sample data were selected as the training set, and machine learning classification models including PLS-DA, Random Forest and KNN were constructed. A fusion model for the rank recognition of individual positions was constructed based on the Stacking method. 273 fresh cigar leaf samples were used as the test set to evaluate the recognition effect of the fusion model. The results showed that among the 3 basic models, the PLS-DA model had the best prediction effect on the test set, and the average accuracy and F1 mean were 0.707 and 0.672, respectively. The average accuracy and F1 mean of the fusion model on the test set were 0.756 and 0.752, respectively, and the fusion model had a good effect on the position grade recognition of each part of fresh cigar tobacco. In summary, the cigar leaf position grade fusion model based on the near infrared spectral data had a good recognition effect. The results provide a reference for the rapid determination of cigar fresh tobacco position grade.

Cite this article

DUAN Jie , ZHANG Cheng , ZHAO Gang , XIONG Tiane , ZHOU Houfa , HE Yuansheng , XU Jie , ZHANG Yongjun , YANG Honghui , HUANG Jinsheng , LI Benhui . Classification of cigar fresh tobacco positive grade based on near infrared technology[J]. Anhui Agricultural Science Bulletin, 2025 , 31(5) : 23 -27 . DOI: 10.16377/j.cnki.issn1007-7731.2025.05.006

南方地区以福建、广东和云南等地烟草种植范围较广[1]。各地区种植的烟草主要用于生产卷烟,雪茄烟的生产相对较少。近年来,随着部分企业开始关注高端烟草产品,雪茄烟产业逐渐兴起。与卷烟不同,雪茄鲜烟叶采收后的加工步骤并非烘烤而是晾制。其晾制成功取决于两个基本的环境条件:晾房内环境温度和相对湿度。晾制过程需密切注意湿度,根据烟叶变色失水情况,人为调控、勤查勤管,通过调整烟杆密度、通风排湿窗的开闭和晾制杆位置以及加热等措施进行合理调控[2]。根据雪茄烟叶部位和等级的不同,温湿度要求和所需晾制时间存在差异,因此在进行晾制前,需根据烟叶部位或等级进行分类,便于后续晾制过程顺利进行。目前,近红外光谱仪正逐渐从实验室静态检测转向手持式移动设备,这种趋势主要与手持式近红外光谱仪价格实惠、携带方便,方便在野外和现场进行分析有关,该光谱仪在烟草、食品和农产品等领域的现场检测应用中扮演着重要角色[3-5]。此前,雪茄鲜烟叶部位和等级的分类主要依靠专业人员判断,该方式易受个人主观因素影响,识别效率较低。快速、准确地区分雪茄鲜烟叶部位和等级,有利于后续加工过程的顺利进行,研究雪茄鲜烟叶部位等级快速识别方法对完善其后续加工过程具有重要意义。刘艺琳等[6]基于近红外光谱技术建立了可靠性较好的烟叶等级识别模型。赵高坤等[7]应用近红外光谱技术分析不同产地雪茄烟叶相似性,发现云南玉溪、文山和普洱地区之间的烟叶相似性高。梁莹等[8]基于近红外光谱技术和随机森林算法建立了不同病害类别的训练模型,该模型的分类准确率、灵敏度较高,性能较优异。目前,鲜烟叶等级的识别主要是基于近红外光谱技术或图像识别技术对其进行识别,但基于近红外光谱技术并应用机器学习模型的雪茄鲜烟叶部位的等级识别方面的研究相对较少。本研究基于雪茄鲜烟叶的近红外光谱数据,应用机器学习方法建立雪茄鲜烟叶部位等级识别模型,并分析该模型的分类识别效果,为雪茄鲜烟叶部位等级的快速检测提供参考。

1 材料与方法

1.1 试验材料与仪器

供试雪茄品种为云雪1号,鲜烟叶于2024年在云南临沧市采集。使用的近红外光谱采集设备为AURA手持式近红外光谱仪(德国Carl Zeiss公司),波长点数701个,波长950~1 650 nm,光栅阵列检测器。

1.2 测定方法

1.2.1 取样规格

根据实际情况,将鲜烟叶的部位分为上部(B)、中部(C)和下部(X)3个部位,其中各部位的鲜烟叶分为1、2和n共3个等级,分别对上述各部位和等级烟叶进行取样100片。雪茄鲜烟叶部位等级判定结果均由专家提供。雪茄鲜烟叶的近红外光谱样本和部位等级数据按照分层抽样的方式进行划分,训练集与测试集样本数量的比例为7∶3。

1.2.2 样品预处理

常见的近红外光谱预处理方法通常有多元散射校正、标准正态变量校正、一阶导数、二阶导数、矢量归一化和波长选择等[9-11]。采用了标准正态变量校正和一阶导数结合的方法处理雪茄鲜烟叶的近红外光谱数据,取相同部位等级的光谱均值作为该类光谱的代表值。

1.2.3 光谱测定

利用原位采集法使用手持式近红外设备采集雪茄鲜烟叶光谱数据,在雪茄鲜烟叶表面直接进行光谱扫描,原位采集前需对仪器进行背景校正,以防测定的光谱发生偏移[12]。应确保雪茄鲜烟叶表面干净、平整且无杂质或污物,否则可能影响获取光谱信号。如图1所示,采集过程中,应将手持式近红外光谱仪对准待测样品表面,确保二者间保持适当的距离。根据雪茄鲜烟叶的主叶脉,将烟叶分为左右两部分,分别连续扫描主叶脉两侧自叶尖至叶基的烟叶表面,此时会生成2个近红外光谱,取其平均值作为该雪茄鲜烟叶的最终近红外光谱代表值。
图1 光谱测定示意

1.2.4 模型构建

运用偏最小二乘判别分析(Partial Least Squares Discriminant Analysis,PLS-DA)、K近邻(K-Nearest Neighbors,KNN)和随机森林(Random Forest,RF)模型进行模型训练。

1.2.5 模型预测效果

通过混淆矩阵预测模型效果,其是一个N×N的方阵(N为类别数量),行代表样本的真实类别,列代表模型的预测结果,对角线元素表示各类别被正确分类的样本数量,非对角线元素则表示被误判的样本数量。

1.3 样本信息

雪茄鲜烟叶样本共907个,其中634个样本用于构建雪茄鲜烟叶部位等级识别模型,273个样本用于测试雪茄鲜烟叶部位等级识别模型的分类效果。其中,用于模型构建的训练集样本和用于模型评估的测试集样本为不同部位等级烟叶的训练集和测试集样本合并,具体烟叶样本数量见表1
表1 不同部位等级的烟叶样本数量 (个)
部位等级 训练集样本数量 测试集样本数量
B-1 71 30
B-2 70 30
B-n 70 30
C-1 70 31
C-2 71 31
C-n 70 30
X-1 70 30
X-2 70 30
X-n 72 31

2 结果与分析

2.1 雪茄鲜烟叶部位等级识别模型的构建

2.1.1 训练集与测试集投影

使用主成分分析将训练集与测试集数据进行降维并投影至二维平面,其分布如图2所示。经降维后的训练集和测试集数据分布基本一致,表明测试集的选取能够代表完整数据集。
图2 训练集和测试集投影

2.1.2 样品预处理

采用标准正态变量校正和一阶导数结合的预处理方法,将相同部位等级的光谱取均值作为该类光谱的代表进行展示,原始光谱和预处理后光谱的对比结果如图3所示。光谱经标准正态变量校正和一阶导数协同处理后,其基线漂移明显消除且吸收峰间的差异显著提高。
图3 样本预处理前后光谱比较

(A)原始光谱;(B)预处理后光谱。

2.1.3 模型构建

利用网格搜索的方法对上述3种基础模型进行超参数优化,3种基础模型在测试集上的平均准确率≥0.590、F1均值≥0.585。其中,PLS-DA模型在测试集上的平均准确率和F1均值最高,分别达0.707和0.672;RF模型的平均准确率和F1均值次之,分别为0.696和0.695;KNN模型在测试集上的平均准确率和F1均值分别为0.590和0.585。说明PLS-DA模型在测试集上的测试结果最佳(表2)。
表2 3种基础模型的测试参数与结果
基础模型 参数 训练时间/s 平均准确率 F1均值
名称 结果
PLS-DA n_components 19 47.58 0.707 0.672
KNN n_neighbors 7 21.59 0.590 0.585
p 2
weights distance
RF max_depth 5 351.85 0.696 0.695
min_samples_leaf 13

2.2 雪茄鲜烟叶部位等级识别模型预测效果

图4可知,PLS-DA模型的分类表现较佳,但其对部位等级C-2的雪茄鲜烟叶分类效果不理想,因此考虑应用Stacking方法将上述3种模型进行融合,使融合模型对各部位等级的烟叶分类均达到较好的效果。
图4 PLS-DA模型在测试集上的预测效果
利用Stacking方法将上述3种模型进行融合,得到雪茄鲜烟叶部位等级识别融合模型,其在测试集上的预测效果如图5所示,其在测试集上的测试结果如表3所示。融合模型对于雪茄鲜烟叶各部位等级的识别效果较好,其中,融合模型对于部位等级B-n的雪茄鲜烟叶识别效果最佳,准确率和召回率分别达0.853和0.967。该模型在测试集上的平均准确率和F1均值分别为0.756和0.752,对于部位等级C-2的雪茄鲜烟叶分类效果远优于PLS-DA模型,且对各部位等级烟叶的分类效果优于3种基础模型。
图5 融合模型在测试集上的预测效果
表3 融合模型在测试集上的测试结果
部位等级 准确率 召回率 F1值
B-1 0.657 0.767 0.708
B-2 0.812 0.867 0.839
B-n 0.853 0.967 0.906
C-1 0.733 0.710 0.721
C-2 0.826 0.613 0.704
C-n 0.786 0.733 0.759
X-1 0.714 0.833 0.769
X-2 0.692 0.600 0.643
X-n 0.733 0.710 0.721
平均 0.756 0.756 0.752

3 结论与讨论

本研究使用手持式近红外光谱仪采集雪茄鲜烟叶的光谱信息,通过标准正态变量校正和一阶导数的预处理方法对光谱数据进行处理,基于机器学习中的PLS-DA、KNN和RF 3种基础模型建立雪茄鲜烟叶部位等级识别模型,并利用Stacking方法将上述模型进行融合,得到的融合模型在测试集上的平均准确率和F1均值分别为0.756和0.752。说明基于手持式近红外光谱数据与机器学习模型建立雪茄鲜烟叶部位等级分类模型的方法具有可行性。
目前,关于鲜烟叶等级分类的研究主要集中在鲜烟叶部位的分类,涉及雪茄鲜烟叶部位等级分类的研究较少。孙利等[13]利用近红外光谱技术,采用SNV+FD预处理算法和CARS特征波长选择算法建立的烟叶品种判别模型效果最佳。郝贤伟等[14]使用偏最小二乘法等数据处理方法建立了片烟常规化学成分、香型、部位等的近红外光谱预测模型,结果表明,该模型预测准确率较高,且预测结果与感官评吸结果一致性较高。杨睿等[15]基于近红外光谱与图像识别技术建立了近红外光谱判别、图像判别等模型,其中近红外光谱模型对烟叶成熟度识别正确率较高。本研究利用Stacking方法将PLS-DA、KNN和RF 3种基础分类模型进行融合,相比PLS-DA模型,融合模型对雪茄鲜烟叶部位等级C-2的分类效果较好,对各部位等级烟叶的分类均具有较高的准确率,对雪茄鲜烟叶部位等级的分类识别具有较高的应用价值。
综上,本研究提出的雪茄鲜烟叶部位等级识别融合模型可实现雪茄鲜烟叶部位等级的快速识别,其在测试集上的平均准确率和F1均值分别为0.756和0.752,为雪茄鲜烟叶的收购和后续雪茄烟智能化晾制的参数调控提供参考。
1
王彦亭,谢剑平,李志宏. 中国烟草种植区划[M]. 北京:科学出版社,2010.

2
高娅北,钟秋,王松峰,等. 雪茄茄衣晾制过程中烟叶颜色和含水量变化及其相关分析[J]. 中国烟草科学201940(2):57-63,72.

3
胡建军,马明,李耀光,等. 烟叶主要化学指标与其感官质量的灰色关联分析[J]. 烟草科技200134(1):3-7.

4
褚小立. 化学计量学方法与分子光谱分析技术[M]. 北京:化学工业出版社,2011.

5
汤朝起,王平,窦玉青,等. 河南烤烟主要化学成分与吸食品质的关系[J]. 中国烟草科学200930(5):41-45,49.

6
刘艺琳,张海燕,彭海根,等. 应用近红外光谱判别烟叶等级模型的可靠性及化学成分特征分析[J]. 光谱学与光谱分析202040(10):3260.

7
赵高坤,李嘉辰,吴玉萍,等. 应用近红外光谱分析不同产地雪茄烟叶的相似性[J]. 光谱学与光谱分析202444(11):3195-3198.

8
梁莹,马琨,张馨予,等. 基于近红外光谱和随机森林的烟叶病害种类识别[J]. 激光与光电子学进展202461(15):362-369.

9
尼珍,胡昌勤,冯芳. 近红外光谱分析中光谱预处理方法的作用及其发展[J]. 药物分析杂志200828(5):824-829.

10
褚小立,袁洪福,陆婉珍. 近红外分析中光谱预处理及波长选择方法进展与应用[J]. 化学进展200416(4):528-542.

11
王欣. 近红外分析中光谱预处理方法的研究与应用进展[J]. 科技资讯201311(15):2.

12
蔡健荣,黄楚钧,马立鑫,等. 一维卷积神经网络的手持式可见/近红外柑橘可溶性固形物含量无损检测系统[J]. 光谱学与光谱分析202343(9):2792-2798.

13
孙利,张毅,孟广云,等. 基于近红外光谱的醇化雪茄烟叶品种判别模型研究[J]. 天津农业科学202430(4):82-90.

14
郝贤伟,黄文勇,徐志强,等. 基于近红外光谱技术的云南片烟综合质量评价[J]. 中国烟草科学202243(2):58-63.

15
杨睿,宾俊,苏家恩,等. 基于近红外光谱与图像识别技术融合的烟叶成熟度的判别[J]. 湖南农业大学学报(自然科学版)202147(4):406-411, 418.

Outlines

/