收藏 分享(赏)

电子鼻结合GC-MS鉴别不同部位的三七粉.pdf

上传人:爱文献爱资料 文档编号:21751052 上传时间:2024-04-21 格式:PDF 页数:9 大小:3.38MB
下载 相关 举报
电子鼻结合GC-MS鉴别不同部位的三七粉.pdf_第1页
第1页 / 共9页
电子鼻结合GC-MS鉴别不同部位的三七粉.pdf_第2页
第2页 / 共9页
电子鼻结合GC-MS鉴别不同部位的三七粉.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、成分分析 食品科学 2023,Vol.44,No.20 321电子鼻结合GC-MS鉴别不同部位的三七粉李丽霞1,张 浩1,林宇浩1,史 磊1,李珊珊1,张付杰1,*,王 俊2,*(1.昆明理工大学现代农业工程学院,云南 昆明 650500;2.浙江大学生物系统工程与食品科学学院,浙江 杭州 310058)摘 要:为鉴别不同部位的三七粉,采用电子鼻结合气相色谱-质谱(gas chromatography-mass spectrometry,GC-MS)联用技术对三七的整根粉、剪口粉、主根粉、侧根粉和须根粉进行挥发性成分分析。通过GC-MS测定三七粉挥发物的成分和含量,并进行多重比较。利用统计学习

2、方法提取电子鼻响应曲线的8 个时域特征,并进行相关性分析,采用3 种特征选择算法对特征数据进行降维。分别建立基于原始特征数据、3 种特征选择数据的支持向量机(support vector machine,SVM)、最小二乘支持向量机(least square support vector machine,LSSVM)和极限学习机分类模型;引入灰狼优化(grey wolf optimization,GWO)算法对分类模型中的参数gam和sig2进行优化。结果表明:5 种三七粉样品中共检测出31 种挥发物成分,最优的GWO-IRIV-LSSVM模型能够对电子鼻数据进行有效区分,测试集准确率为97.

3、5%,且能客观反映出样品种类挥发性物质的差异主要是挥发物总量、烷烃和芳香族化合物,这与GC-MS检测结果一致。本研究可用于道地产区优质三七粉混入劣质三七粉的检测。关键词:电子鼻;气相色谱-质谱法;三七粉;特征提取;最小二乘支持向量机;灰狼优化算法Identification of Panax notoginseng Powders from Different Root Parts Using Electronic Nose and Gas Chromatography-Mass SpectrometryLI Lixia1,ZHANG Hao1,LIN Yuhao1,SHI Lei1,LI S

4、hanshan1,ZHANG Fujie1,*,WANG Jun2,*(1.Faculty of Modern Agricultural Engineering,Kunming University of Science and Technology,Kunming 650500,China;2.College of Biosystems Engineering and Food Science,Zhejiang University,Hangzhou 310058,China)Abstract:In order to identify Panax notoginseng powders fr

5、om different root parts,an electronic nose and gas chromatography-mass spectrometry(GC-MS)were used to analyze the volatile components of the whole root powder,rhizome powder,taproot powder,lateral root powder and fibrous root powder of P.notoginseng.The data obtained were analyzed by multiple compa

6、rison.The statistical learning method was used to extract eight time-domain features from the response curves of the electronic nose,and correlation analysis was carried out.Three feature selection algorithms were used to reduce the dimension of the feature data.Classification models were built usin

7、g support vector machine(SVM),least square support vector machine(LSSVM)or extreme learning machine(ELM)based on the original feature data or the three kinds of feature selection data.The grey wolf optimization(GWO)algorithm was introduced to optimize the parameters gam and sig2 in the classificatio

8、n model.The results showed that a total of 31 volatile compounds were detected in the five P.notoginseng powders.The best GWO-IRIV-LSSVM model could effectively distinguish the electronic nose data,with 97.5%accuracy for the test set.Moreover,the volatile composition of the five samples differed mai

9、nly in terms of the contents of total volatiles,alkanes,and aromatic compounds,which was consistent with the results of GC-MS.The method used in this study can be used for the detection of high-quality P.notoginseng powder from geo-authentic production areas mixed with low-quality P.notoginseng powd

10、er.Keywords:electronic nose;gas chromatography-mass spectrometry;Panax notoginseng powder;feature extraction;least squares support vector machine;grey wolf optimization algorithmDOI:10.7506/spkx1002-6630-20221129-332中图分类号:R282.5;TP212 文献标志码:A 文章编号:1002-6630(2023)20-0321-09收稿日期:2022-11-29基金项目:云药之乡产业技

11、术创新体系构建及应用项目(202102AA310045)第一作者简介:李丽霞(1983)(ORCID:0000-0003-2153-9905),女,副教授,博士,研究方向为农产品品质检测。E-mail:*通信作者简介:张付杰(1977)(ORCID:0000-0003-3898-217X),男,副教授,博士,研究方向为农产品加工。E-mail:王俊(1965)(ORCID:0000-0001-5767-6149),男,教授,博士,研究方向为农产品装备工程。E-mail:322 2023,Vol.44,No.20 食品科学 成分分析引文格式:李丽霞,张浩,林宇浩,等.电子鼻结合GC-MS鉴别不同

12、部位的三七粉J.食品科学,2023,44(20):321-329.DOI:10.7506/spkx1002-6630-20221129-332.http:/ LI Lixia,ZHANG Hao,LIN Yuhao,et al.Identification of Panax notoginseng powders from different root parts using electronic nose and gas chromatography-mass spectrometryJ.Food Science,2023,44(20):321-329.(in Chinese with En

13、glish abstract)DOI:10.7506/spkx1002-6630-20221129-332.http:/三七(Panax notoginseng(Burk.)F.H.Chen),又名文州三七,为五加科(Araliaceae)人参属(Panax)植物,是临床常用传统中药1。三七商品有主根、剪口、侧根、须根的划分,不同部位的药用成分构成有较大差异,临床功效也不尽相同2。现代药理学研究表明,三七总皂苷(Panax notoginseng saponins,PNS)是三七药效的主要物质基础3。根据GB/T 190862008文山三七地理标志产品,三七不同部位总皂苷含量从高到低依次为剪口

14、、主根、侧根、须根。三七的主要商业价值在于剪口和主根,三七粉是三七的主要消费和商品形式4。剪口、主根、侧根和须根等形态相对简单,很容易通过外观鉴别,但在粉末状态下,它们的颜色相同,通过肉眼很难对其进行鉴别5。所以,市场上一些不良商家会利用三七侧根、须根粉假冒主根和剪口粉获取暴利,这严重扰乱市场秩序,影响了三七的品质与药效。因此,鉴别不同部位的三七粉有利于保证三七的药效,以及促进该产业的规范化发展。目前,对于三七粉的检测研究,主要采用高效液相色谱法和近红外光谱法。其中,高效液相色谱法虽然精度很高,但是操作复杂,且投入很高,无法达到快速、无损检测的要求6。近红外光谱技术分析样品具有方便、快速和成本

15、较低等优点,但其单色光的谱带较宽,波长分辨率差,且对温湿度敏感,抗干扰能力差,导致检测精度不高7。已有研究表明,三七挥发性成分众多,且三七不同部位挥发物有差异8-10。因此,可以通过三七粉挥发物的检测对不同部位三七粉进行鉴别。基于嗅觉仿生技术的电子鼻操作简单,且成本相对低廉,是一种分析、检测复杂气味和大多数挥发性成分的仪器,具有快速、无损等优点11-12,是实现中药挥发物检测的较佳方法。迄今为止,电子鼻在农业食品13-15、药材检测16-17、医疗健康18-19、环境监控20-21等方面已经取得较多应用和研究成果。目前,已经有一些学者通过电子鼻检测不同头数三七主根粉挥发物鉴别三七主根的质量等级

16、或者伪品11,22,也有学者通过检测三七主根粉和支根粉的挥发物判别三七主根、支根的产地23。然而,利用电子鼻鉴别不同部位三七粉的报道很少。电子鼻可以快速准确地检测出不同的挥发物类型,通常对一些产品的整体信息提供综合评估,气相色谱-质谱(gas chromatography-mass spectrometry,GC-MS)主要用于挥发性物质的定性和半定量24,国内外已有许多采用电子鼻结合GC-MS联用技术研究五加科中药材挥发性成分的研究25-28。因此,本研究采用电子鼻技术结合GC-MS对三七整根粉、剪口粉、主根粉、侧根粉和须根粉5 种三七粉挥发性成分进行分析,从而鉴别这5 种三七粉。电子鼻数据

17、分析主要包括特征提取和模式识别29,不同的特征提取方法会影响分类效果,合适的特征提取方法应该在很大程度上反映电子鼻传感器的变化30。模式识别方法众多,但仍然需要大量的工作选择合适的算法表征电子鼻传感器信号。本研究的重点是探究电子鼻结合GC-MS在鉴别不同部位三七粉中的潜在应用。本研究探究利用金属氧化物半导体传感器PEN3电子鼻和GC-MS联用技术鉴别5 种三七粉的可行性,寻找合适的基于电子鼻数据的三七粉特征选择方法和分类模型,旨在应用于5 种不同三七粉的鉴别分析。1 材料与方法1.1 材料与试剂三七样品于2017年12月份采自云南文山州。将三七样品进行清洗,清洗后自然干燥,然后将干燥后的三七样

18、品分为整根、剪口、主根、侧根和须根。最后将样品用小型粉碎机进行粉碎,粉碎的样品过60 目筛后装进密封袋封口,保存于4 冰箱备用。乙酸辛酯(色谱纯)、二氯甲烷(分析纯)国药集团化学试剂有限公司。1.2 仪器与设备7890A-5975C GC-MS仪 美国安捷伦公司;德国Airsense公司生产的PEN3型电子鼻系统,该电子鼻的气体传感器阵列由10 个金属氧化物半导体传感器组成,不同传感器对不同类型的挥发物灵敏性不同,具体见表1。表 1 PEN3电子鼻传感器阵列性能特点Table 1 Response characteristics of PEN3 electronic nose sensor a

19、rrays传感器编号传感器名称传感器特性参考物质 检测限/(mg/kg)S1W1C对芳香成分灵敏甲苯10S2W5S具有广谱性响应性,对氮氧化合物很灵敏二硫化物1S3W3C对氨水、芳香成分灵敏苯10S4W6S对氢气有选择性氢气0.1S5W5C对烷烃、芳香成分灵敏丙烷1S6W1S对烷烃灵敏甲烷100S7W1W对硫化成分(硫化氢)灵敏硫化氢1S8W2S对乙醇及部分芳香族化合物灵敏一氧化碳100S9W2W对芳香成分、有机硫化物灵敏硫化物1S10W3S对烷烃(甲烷等)灵敏甲烷100成分分析 食品科学 2023,Vol.44,No.20 3231.3 方法1.3.1 电子鼻检测制作5 种不同部位的三七粉样

20、本,分别为整根粉、剪口粉、主根粉、侧根粉和须根粉,每组24 个样本,每个样本为5 g。将各三七粉末样品分别置于500 mL的烧杯中,立即用保鲜膜密封,在25 室温静置60 min,通过顶空进样的方式进行采样。采样完成后,将氮气泵入电子鼻,对传感器进行清洗使其恢复到初始状态。电子鼻的检测参数为样品测定间隔时间1 s,清洗传感器时间180 s,速率600 mL/min,样品检测时间120 s,速率400 mL/min。1.3.2 GC-MS测定采用顶空固相微萃取对样品进行萃取,GC-MS进行分离、鉴定和定量挥发性化合物。称取0.5 g样品于15 mL顶空瓶中,并加入10 L 2104 L/mL的乙

21、酸辛酯(溶质)二氯甲烷(溶剂)溶液作为内标物,用封口膜封口,涡旋振荡30 s,放入80 水浴锅中平衡30 min,萃取头(DVB/CAR/PDMS-50/35 m)吸附30 min,解吸10 min,每组处理设置3 个重复样品。GC条件:进样口温度为250,不分流,采用HP-5MS色谱柱(30 m0.25 mm,0.25 m),载气为氦气,流速2 mL/min。升温程序:初始温度50 保持2 min,以8/min的速率升温至140,保持0.1 min,然后以4/min的速率升温至240,最后以8/min的速率升温至280,保持3 min。MS条件:离子化方式为电子电离,电子能量为70 eV,四

22、极杆温度为150,离子源温度为230,接口温度为280,质量范围为3050 u。1.4 数据处理1.4.1 电子鼻数据分析1.4.1.1 特征提取检测模型的精度受气敏信号特征参量选择的影响。通过对前人研究分析31-33,选择积分值(integralvalue,INV)、平均微分值(average differential value,ADV)、相对稳态平均值(relative steady-state averagevalue,RSAV)、最值(extreme value,EV)、二项式曲线拟合系数值(binomial curve fitting coefficient value,BFV)(

23、a,b,c)作为三七粉电子鼻信号的特征,5 种特征分述如下:1)INV:是传感器响应信号曲线与X轴组成区域的面积,反映了该传感器对被测对象挥发性成分的总体响应结果,本研究取0120 s时间区间INV为特征值。其计算公式如下:INV?0120f?xi?dx?i?1,2,10?(1)式中:i为传感器的序号;f(xi)为第i根传感器的响应曲线函数。2)ADV:反映了传感器响应曲线变化的快慢程度,直接体现了气敏传感器对气体响应的主流特征信息,取检测时间为0120 s,计算公式如下:ADV?yj?1?yj?119j?0120?i?1,2,10?(2)式中:i为传感器的序号;yj为第j秒时第i根电子鼻传感

24、器的响应值。3)RSAV:气敏传感器响应曲线存在1 个相对稳态区间,可用此区间的平均值表征稳态特征,本研究选取区间为101120 s,计算公式如下:RSAV?f?xi?i?1,2,10?120t?101120(3)式中:i为传感器的序号;f(xi)为第i根传感器的响应曲线函数。4)EV:为每条电子鼻响应曲线的最大值和最小值。5)BFV:曲线拟合方法采用解析表达式逼近离散数据,拟合参数作为特征进行计算。多项式函数(polynomial function,PF)是常用的具有鲁棒性的曲线拟合模型。本研究用二次多项式用拟合第i根传感器的响应曲线,拟合参数的系数用来作为特征值34,计算公式如下:y?ax

25、i2?bxi?c?i?1,2,10?(4)式中:i为传感器序号;a、b、c分别为拟合系数。本研究用以上8 个特征表征单个传感器信号,10 个传感器共80 个特征数据,本实验共有5 种三七粉,每种三七粉有24 个样本,故特征提取后的数据为12080的特征矩阵。1.4.1.2 特征选择竞争性自适应重加权算法35(competitive adaptive reweighted sampling,CARS)是一种快速有效的特征选择方法。采用偏最小二乘回归(partial least squares regression,PLSR)系数的绝对值作为每个变量重要性的评价指标,通过自适应重加权采样和指数衰减

26、函数技术进行变量选择,选出具有最小交互验证均方根误差(root mean square error of cross validation,RMSECV)的变量子集作为最优变量集合。空间变量迭代收缩算法36(variable iterative space shrinkage approach,VISSA)基于模型集群分析的思想,通过引入加权二进制采样方法(weighted binary matrix sampling,WBMS),提取原始数据集中的子集,建立基于变量子集的PLSR模型,在每轮采样中以RMSECV作为指标对子模型进行排序以获得最优模型,提取出最优模型及新的子训练数据集,重复上述

27、过程,直到所有的变量权重恒定为1或者0,最终得出最优模型,选择出最优的特征变量组合。324 2023,Vol.44,No.20 食品科学 成分分析迭代保留信息变量算法37(iteratively retains informative variables,IRIV)是一种通过随机组和考虑变量之间可能的交互作用策略,在对特征变量进行筛选时,IRIV将所有特征变量分为强信息变量、弱信息变量、无信息变量和干扰变量,并在每一次迭代中只保留强信息变量和弱信息变量,直到不出现无信息和干扰变量后才停止迭代。1.4.1.3 分类模型支持向量机38(support vector machine,SVM)是一种监

28、督式学习的方法,与常用算法相比,SVM通常能够获得较好分类性能。SVM在有限的样本下可以实现准确的状态识别,广泛地应用于统计分类以及回归分析。最小二乘支持向量机39-40(least squares support vector machine,LSSVM)是由SVM变化而来。SVM主要是根据监督学习的方法对两种不同类型的样本点进行分类,SVM决策边界等同于最大的边距超平面,它的经验风险值是采用铰链损失函数计算得出,并利用正则化方法进行优化。LSSVM打破了使用铰链损失函数对经验风险值进行求解,而是将SVM中的不等式约束条件转换为简便的等式约束条件,这一改变将使得Lagrange乘子的求解过程

29、变得方便,并将二次规划求解转变为求解线性方程组,使得整个算法的计算过程更加简便。极限学习机41(extreme learning machine,ELM)是一种针对单隐含层前馈神经网络(single-hidden layer feedforward neural network,SLFN)的算法。与传统的SLFN训练算法不同,极限学习机随机选取输入层权重和隐藏层偏置,输出层权重通过最小化由训练误差项和输出层权重范数的正则项构成的损失函数,依据Moore-Penrose(MP)广义逆矩阵理论计算解析求出。ELM相比传统的神经网络可在保证学习精度的情况下具有更快的学习速度。1.4.1.4 智能优化

30、算法 灰狼优化算法42(grey wolf optimization,GWO)是受到了灰狼捕食猎物活动的启发而开发的一种优化搜索方法,于2014年被Mirjalili等提出,主要步骤如下:根据优化的问题,设计fitness函数,设置可行域;初始化狼群的个数N,每头狼的位置Xi(i1,2,.,N),并指定、狼的位置,以及它们对应的适应度f、f、f=inf;依次更新每头狼的位置X、X、X,对于第i头狼,计算其与、狼的距离,并产生向三头狼移动的趋势项,不断重复这一步骤直至狼群的位置稳定。1.4.2 挥发物分析挥发物成分定性和定量方法:挥发物各组分的定性主要通过核对计算机质谱库(NIST11.0),以

31、及比较相关参考文献。挥发物各组分的定量采用峰面积归一法测算43,根据已知质量浓度乙酸辛酯的峰面积计算出三七粉样品中各挥发物质的含量,公式如下:MX?10?1 000?AX0.5?Ai?1 000?Ci(5)式中:MX为目标化合物的含量/(g/kg);AX和 Ai分别为目标化合物的峰面积和内标化合物的峰面积;Ci为内标化合物的质量浓度/(g/mL);10为加入标品体积(L);0.5为加入样品质量(g);分子上1 000代表1 kg,分母1 000代表1 000 L。2 结果与分析2.1 不同部位三七粉挥发物变化经 G C-M S 联 用 技 术 检 测 发 现,5 种 不 同 部位三七粉挥发物共

32、有31 种,包括萜烯类17 种,占比43.51%56.21%;芳香族化合物2 种,占比13.75%25.77%;烷烃类8 种,占比1.06%3.51%;烯烃、酸类和醇类4 种,占比26.86%39.23%。采用Duncan法进行多重比较,主要的代表性挥发物见表2。表 2 5 种三七粉的主要挥发物的种类和含量Table 2 Main types and contents of volatile components in five P.notoginseng powders类别序号挥发性成分含量/(g/kg)整根粉主根粉剪口粉侧根粉须根粉萜烯类(8)1-古云烯201.1410.48a69.394

33、.11c149.524.93b70.063.45c27.553.11d2-杜松烯96.213.7a48.513.08b32.331.92c30.731.91c23.381.95d3香橙烯64.714.14a10.511.92d31.492.89b20.742.48c5.460.97e4-荜澄茄油烯27.532.87a10.081.15c8.621.05c7.640.77c14.572.15b5-依兰油烯41.543.13a38.192.55a22.92.43b0d16.561.8c6-王古王巴烯6.780.88bc8.311.18b5.40.76cd4.621d11.621.01a7-杜松烯1

34、3.151.34a0d10.691.83b8.450.98c7.41.2c8-依兰油烯6.840.9b1.870.65c2.560.71c8.390.99a2.320.58c总含量457.8927.39a186.8614.54c263.516.47b150.6211.42d108.8712.68e芳香族化合物(2)9萘115.595.16a54.273.89c77.282.84b75.384.01b57.472.26c10苯乙酮13.591.86a4.770.76c11.450.91b0d3.770.78c总含量129.184.85a59.043.68d88.732.55b75.384.01c

35、61.242.72d烷烃(2)11十四烷2.370.45c6.480.85a4.440.72b1.310.45c1.450.24c12十六烷6.381.02b8.611.09a8.551.49a1.490.43c1.360.55c总含量8.751.46b15.091.9a132.19a2.790.84c2.810.79c其他(3)13桉油烯醇84.23.43b103.533.6a73.332.84c67.571.9d40.662.92e14辛酸3.50.51a3.330.46a3.640.22a3.210.36a3.330.59a15环己烯131.135.86a61.583.7b63.943.

36、62b16.442.95c20.762.66c总含量218.839.76a168.447.76b140.916.52c87.225.2d64.765.1e总量814.6538.21a429.4223.53c506.1424.96b316.0115.92d237.6720.19e注:字母不同表示差异显著(P0.05)。由表2可知,5 种不同部位三七粉的挥发物在成分和含量上均存在差异(P0.05)。5 种三七粉检测到的挥发物总量相互之间差异显著(P0.05)(参照总量平均值)。侧根粉未检测出中苯乙酮和-依兰油烯成分,主根中未检测出-杜松烯成分,其余成分在5 种三七粉中均有分布。5 种三七粉相互之间

37、均存在显著差异(P0.05)的挥发物成分是桉油烯醇和香橙烯,无显著差异(P0.05)的成分是辛酸。其余萜烯类、芳香族化合物和烷烃成分均存在不同程度的差异(P0.05)。因此,可以通过电子鼻利用以上化合物含量差异鉴别5 种三七粉。成分分析 食品科学 2023,Vol.44,No.20 3252.2 不同部位三七粉挥发物变化0.50604020801001200.71.3a1.21.11.00.90.80.6G/G0?/sS8S6S10S4S1/3/5/7S9S20.60604020801001200.71.2b1.11.00.90.8G/G0?/sS8S6S1/3/5S7S10S4S9S2060

38、4020801001200.71.21.3c1.11.00.90.8G/G0?/sS8S6S1/3/4/5S7S10S9S20604020801001200.71.2d1.11.00.90.8G/G0?/sS8S6S1/3/5S4S7/10S9S20604020801001200.81.1e1.00.9G/G0?/sS6/8S1/3/4/5S7S10S9S2G和G0分别为传感器检测样品气体和洁净空气时的电阻值,S1S10分别为电子鼻的10 个传感器。a.整根粉;b.剪口粉;c.主根粉;d.侧根粉;e.须根粉。图 1 不同部位三七粉的电子鼻传感器响应曲线Fig.1 Response curves

39、 of electronic nose sensors for five P.notoginseng powders从图1可以看出,电子鼻每个传感器对5 种三七粉均有响应,且响应值的变化均不相同。其中传感器S2、S6、S8和S9的响应值变化显著高于其他传感器。传感器S2具有广谱响应性,挥发物含量越大,其响应值变化越大,萜烯类物质在挥发物中含量占比最高,其对S2响应值的变化贡献率最高。5 种三七粉的萜烯类物质在成分和含量上均存在显著差异(P0.05),总含量大小依次为整根粉、剪口粉、主根粉、侧根粉、须根粉,与S2的响应值变化规律一致。传感器S6对烷烃化合物灵敏,其响应值的变化从大到小依次为主根粉

40、、剪口粉、整根粉、须根粉、侧根粉,GC-MS联用仪分析的结果(表2)显示,5 种三七粉烷烃含量高低与S6的响应值变化规律相同。传感器S8和S9对芳香族化合物灵敏,响应值的变化从大到小依次为整根粉、剪口粉、侧根粉、须根粉、主根粉,GC-MS联用仪分析结果显示5 种三七粉的芳香族化合物在成分和含量上均存在差异(P0.05),且5 种三七粉芳香族化合物在含量上的差异与电子鼻S8、S9的响应值变化差异相同。由以上各样品的电子鼻传感器的响应曲线差异分析可以表明,电子鼻在不同部位三七粉的鉴别上具有可行性。2.3 特征数据分析特征变量之间存在高冲突数据会影响特征融合数据的可靠性,继而会影响分类模型建模结果,

41、而Pearson相关系数在度量数据之间的冲突程度上表现良好44。以整根粉10 根传感器响应值的INV特征数据和整根粉单个传感器S2响应值的8 个特征数据为例分析特征数据之间的冗余程度。图2是这两种不同维度数据各自的Pearson相关矩阵,其中相关系数的绝对值越接近1,说明二者之间的相关性越大;相关系数的大小在图中用椭圆形球的宽窄和颜色表示,正负用椭圆形球的左偏和右偏表示。由图2A可知,除S7、S9传感器外,其余8 个传感器之间都存在大量冗余信息;由图2B可知,除了最大值特征T4和BFV b特征T7外,其余6 个特征数据之间存在大量冗余信息。所以,需要对特征数据进行特征降维提高分类模型的精度。S

42、1S1AS2 S3S4S5S6S7S8S9 S101.00.80.60.40.20.0?0.2?0.4?0.6?0.8S2S3S4S5S6S7S8S9S10?1.00?0.860.98?0.56?0.960.94?0.06?0.850.31?0.73?0.531.00?0.830.67?0.780.920.190.90?0.540.720.98?0.831.00?0.560.98?0.92?0.05?0.830.29?0.71?0.560.67?0.561.00?0.920.760.650.89?0.740.750.96?0.780.98?0.521.00?0.870.04?0.790.31?

43、0.66?0.940.92?0.920.76?0.871.000.270.97?0.480.78?0.060.19?0.050.650.040.271.000.39?0.150.59?0.850.90?0.830.89?0.790.970.39?1.00?0.650.800.31?0.540.29?0.740.31?0.48?0.15?0.651.00?0.28?0.730.72?0.710.75?0.660.780.590.80?0.281.00326 2023,Vol.44,No.20 食品科学 成分分析BT1T2T3T4T5T6T7T81.00.80.60.40.20.0?0.2?0.4

44、?0.6?0.8T1T2T3T4T5T6T7T8S1S10为电子鼻10 根传感器,T1T8为INV、ADV、RSAV、最大值、最小值、BFV a、b和c,共8 个特征。A.整根粉INV特征数据;B.整根粉S2传感器8 个特征数据。图 2 整根粉两种不同维度特征数据的Pearson相关系数矩阵图 Fig.2 Pearson correlation coefficient matrix of two different dimensional feature data of the whole root powder2.4 特征数据选择为了降低特征变量之间数据高冲突风险,剔除特征之间的冗余信息,挖

45、掘具有重要价值的特征参数,本研究采用CARS、VISSA和IRIV对80 个三七粉特征变量进行优选,以提高模型的泛化能力和识别准确率,增强模型的鲁棒性。2.4.1 基于CARS的三七粉特征选择在CARS的特征选择过程中,设置蒙特卡罗采样次数为50,采用5折交叉验证的方法建立PLSR模型,以RMSECV最小值确定选择的最优特征组合。三七粉的特征选择过程如图3所示。从图3a可以看出,随着采样次数的不断增加,选择的特征数量逐渐减少,且减少趋势逐渐变缓,体现了CARS在特征选择过程中的“粗选”和“精选”的过程。从图3b可以看出,随着采样次数的增加,RMSECV的值呈现先下降后上升的趋势,在下降的过程中

46、,表明无用信息或者干扰信息正在被剔除,而在上升的过程中,表明有用信息正在被剔除。图3c为特征选择过程中各特征变量回归系数的趋势变化,蓝色星号竖线表示最佳采样位置,此时RMSECV值最低,选择的特征变量组合最优。最终通过CARS筛选出了15 个特征变量。0025502045154010355306090a30?0.6025502045154010355301.01.2b0.8RMSECV?400?20005020401030200400c0?a.特征变量数;b.RMSECV;c.回归系数。图 3 三七粉的CARS特征选择过程Fig.3 CARS feature selection process

47、 for P.notoginseng powder2.4.2 基于VISSA的三七粉特征选择在VISSA的特征选择过程中,设置每轮WBMS生成的变量个数为5 000,子模型的数据集占比为0.05,特征变量的初始权重为0.5,采用5折交叉验证的方法建立PLS模型,根据RMSECV最小值确定最终特征个数。由图4可知,随着选择的特征变量数量的增加,RMSECV的值呈先快速下降再趋于稳定后又上升的趋势。当特征变量个数小于16时,RMSECV较大,表明这些特征变量无法准确表征三七粉特征,当特征变量个数大于28时,RMSECV增加,表明此时的特征变量组合中存在冗余或干扰信息,不利于建模。最终在RMSECV

48、值最小(图4箭头)处选择28 个特征变量。0.60.70804020601.31.51.41.01.20.91.10.8RMSECV?图 4 三七粉的VISSA特征选择过程Fig.4 VISSA feature selection process for P.notoginseng powder2.4.3 基于IRIV的三七粉特征选择在IRIV特征选择的过程中,采用5折交叉验证的方法建立PLS模型,然后以RMSECV作为评价指标选择特征变量。在每次迭代中,IRIV均会剔除一些无用和干扰的特征变量,保留有用的特征。图5为IRIV选择特征变成分分析 食品科学 2023,Vol.44,No.20 3

49、27量数量的过程,经过10 次迭代后,特征变量个数稳定在16 个,再经过反向消除无关变量和干扰变量后,最终保留了14 个特征。01121110987654326080805952474339332019161614703050204010?图 5 三七粉的IRIV特征选择过程Fig.5 IRIV feature selection process for P.notoginseng powder2.4.4 3 种算法特征选择结果分析采用CARS、VISSA和IRIV对特征进行选择后分别得到15、28、14 个特征变量。3 种算法选择后的特征变量分布如图6所示,其中横坐标表示10 根电子鼻传感器

50、响应值的特征变量编号,18、101108分别代表电子鼻传感器S1S10响应值的INV、ADV、RSAV、最大值、最小值、BFV a、b、c,8 个特征,纵坐标表示特征选择算法的类别。CARS选择的15 个特征中,8 个是BFV特征,占比最大;6 个是EV特征,关于S2、S6、S8、S9四根传感器的特征有5 个,占比为1/3。VISSA选择的特征最多,共28 个,其中16 个是BFV特征,占比最大;剩下的主要是相对平均稳态值和最大值,关于S2、S6、S8、S9四根传感器的特征有14 个,占比为1/2。IRIV选择的特征最少,共14 个,其中9 个是BFV特征,占比最大;而关于S2、S6、S8、S

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报