NANBEI Is Professional On Providing One-step Solution Of Laboratory Instruments And Equipment
紅外光譜是利用物質分子對紅外輻射的選擇性吸收,用紅外分光光度計測得的包含物質分子結構信息的光譜圖。由于紅外光譜具有特征性強、取樣量小、簡便迅速、準確等特點,近年來其應用得到較快的發(fā)展,各國藥典都將紅外光譜作為法定的藥物鑒別的主要方法,與此同時也越來越多地應用于中藥材的識別研究。
中醫(yī)藥是我國的傳統(tǒng)醫(yī)學寶庫,中藥藥性理論是傳統(tǒng)醫(yī)藥的核心理論之一,是中華醫(yī)學理論體系中的一個重要組成部分。對中藥藥性的研究自古有之[1~3],并已成為指導中藥的指導原則[4]。然而,中藥藥性的機理至今尚未被人們所徹底了解,一般認為,中藥中的化學成分或某些藥效團是中藥藥性的物質基礎[5,6],但其與藥性的相關性目前尚不為人知;由于紅外光譜是利用物質的分子對紅外輻射的吸收得到的與分子結構相應的紅外光譜圖,因此,如果中藥中的化學成分或藥效團確實與藥性相關,那么其紅外光譜與藥性應具有一定的相關性。正是基于這種想法,本文嘗試將主成分分析技術與支持向量機方法相結合,利用中藥紅外光譜數(shù)據(jù)進行建模分析,探討中藥紅外光譜數(shù)據(jù)與藥性的相關性,取得了較好的效果。現(xiàn)報道如下。
1基本原理簡介
1.1支持向量機分類原理支持向量機[7](SupportVectorMachine,SVM)是從統(tǒng)計學習理論發(fā)展起來的一種機器學習方法,該方法不僅支持小樣本情況下的識別分類,而且具有較好的泛化性,從上世紀90年代初提出以來已成為模式識別的一個重要方法,目前已廣泛應用于生產實踐與科學研究的各個領域,例如文本的分類與識別[8,9]、蛋白質功能的預測[10]和藥材的分類與識別[11]等,其分類原理是通過定義適當?shù)膬确e函數(shù)ψ(·)將數(shù)據(jù)從輸入空間映射到高維解空間,然后在這個高維解空間中構造超平面
ω·ψ(x) b=0①
再利用結構風險原則,及Karush-Kuhn-Tucher條件,建立優(yōu)異分類判別函數(shù)
y(x)=sign[∑xi∈SVαiyiK(xi,x) b]②
這里K(xi,x)=ψ(xi)Tψ(x)稱為核函數(shù),xi∈SV稱為支持向量。通過判別函數(shù)②即可實現(xiàn)數(shù)據(jù)的分類。
1.2主成分分析將紅外光譜原始數(shù)據(jù)作為支持向量機的輸入,通常存在兩個問題,優(yōu)異,紅外光譜數(shù)據(jù)一般都是高維向量,維數(shù)從幾十到上千不等,導致向量變量與樣本數(shù)的比值過大,直接影響支持向量機建模的可靠性;第二,紅外光譜數(shù)據(jù)往往包含有大量的重疊信息,數(shù)據(jù)矩陣存在大量線性相關的變量向量。因此利用支持向量機進行建模前,SHOU先要對紅外光譜數(shù)據(jù)進行壓縮或降維,在保證不丟失光譜主要信息特征的前提下,將高維的光譜數(shù)據(jù)轉化為低維數(shù)據(jù),以作為支持向量機的輸入。主成分分析法[12](principalcomponentanalysis,PCA)是目前使用廣泛的線性降維方法之一,該方法的特點是對原數(shù)據(jù)進行線性變換,保留方差大、包含信息量多的變量,丟掉方差較小、包含信息量少的變量,然后通過重新線性組合求出新的分量,達到降低光譜數(shù)據(jù)維數(shù)的目的,其基本原理[13]是將被分析的數(shù)據(jù)矩陣Xm×n分解成下面形式:
X=TPT E③
其中Tm×a稱為得分矩陣,Pn×a稱為載荷矩陣,Em×n為殘差矩陣,T、P均為正交矩陣。在所能容忍的殘差范圍內,X近似地表示為
X=TPT④
將④式得分矩陣T移至左邊,得
T=XP⑤
從⑤式可以看出,通過載荷矩陣P可以將原數(shù)據(jù)矩陣X投影到一個a維子空間,一般情況下,a遠遠小于原向量的維數(shù)n,于是實現(xiàn)了數(shù)據(jù)的降維。通常,a稱為主成分數(shù)。
2方法
2.1藥材本研究使用的76味中藥的藥材名稱、產地及藥性見表1。其中,平性藥36味,寒涼藥20味,溫熱藥20味。
表176味中藥材藥名、產地、藥性列表
藥名產地藥性藥名產地藥性藥名產地藥性蒲黃山東平桑寄生廣西平細辛吉林溫熱桃仁河北平牛膝河南平花椒四川溫熱合歡皮四川平秦艽甘肅平丁香廣東溫熱川牛膝四川平仙鶴草浙江平高良姜廣東溫熱血竭廣西平大血藤河南平丹皮安徽寒涼三棱江蘇平矮地茶廣西平赤芍湖南寒涼王不留行江蘇平大血藤江西平大黃甘肅寒涼蘇木廣西平大血藤湖南平丹參河北寒涼銀杏葉廣西平藕節(jié)湖南平益母草廣西寒涼腫節(jié)風廣西平絲瓜絡江蘇平薄荷湖南寒涼甘草內蒙古平川芎四川溫熱桑葉安徽寒涼紅景天湖南平桂枝廣西溫熱葛根河南寒涼卷柏廣西平當歸甘肅溫熱柴胡河北寒涼兩面針廣西平三七廣西溫熱知母河北寒涼路路通廣西平紅花河南溫熱梔子江西寒涼木賊陜西平麻黃內蒙古溫熱夏枯草湖北寒涼芡實安徽平紫蘇湖南溫熱板藍根河北寒涼山藥廣西平荊芥江蘇溫熱金銀花湖南寒涼香附湖南平防風東北溫熱蒲公英河北寒涼仙鶴草廣西平蒼術河北溫熱大青葉湖南寒涼茯苓云南平厚樸四川溫熱穿心蓮廣東寒涼香附山東平砂仁云南溫熱龍膽草內蒙古寒涼太子參江蘇平豆蔻廣西溫熱苦參山西寒涼山藥河南平附子四川溫熱玄參浙江寒涼枸杞寧夏平干姜四川溫熱半邊蓮安徽平吳茱萸湖南溫熱
2.2儀器與實驗參數(shù)設置
2.2.1儀器NicoletNEXUS470FT-IR光譜儀(美國ThermoNicolet公司),F(xiàn)W-4型壓片機(上海浦東榮豐科學儀器有限公司)。
2.2.2參數(shù)設置光譜掃描范圍450~4000cm-1;分辨率4cm-1,等間隔采集數(shù)據(jù),每味中藥共采集1842個數(shù)據(jù)。掃描次數(shù)為16次。
2.3樣品制備與測試在本研究的前期工作中,曾對20種不同藥性中藥的石油醚、醋酸乙酯、乙醇、水不同溶劑提取部位的提取物紅外光譜與藥性的相關性進行過初步分析,結果顯示醋酸乙酯部位的提取物紅外光譜與藥性相關性優(yōu)異,因此本實驗主要對醋酸乙酯提取物的紅外圖譜進行分析,具體制樣方法如下:取表1所示76種中藥樣品粉末各2g,分置于50ml錐形瓶中,分別加入醋酸乙酯20ml,,超聲提取30min,濾過,取濾液水浴蒸干。將提取物以1∶50~1∶100的比例加入溴化鉀研磨均勻,于壓片機上壓成透明的薄片,然后置于NicoletNEXUS470FT-IR光譜儀上掃描,測得各中藥醋酸乙酯提取物的紅外光譜及數(shù)據(jù)。
3數(shù)據(jù)處理與模型構建
3.1數(shù)據(jù)預處理為提高構建模型的健壯性,減少因實驗誤差、環(huán)境干擾等因素對分析對象的影響,本文每味中藥均測定3次。構建模型前,SHOU先對每味中藥各次測得的光譜數(shù)據(jù)加和平均,得到加和平均數(shù)據(jù)曲線后,選擇正交小波函數(shù)系Symlets對數(shù)據(jù)進行小波消噪處理,并在此基礎上對數(shù)據(jù)進行如下變換。
3.1.1極差尺度化針對每一個樣品紅外光譜數(shù)據(jù)極差尺度化,其變換公式如下:
χij=χij-χmin(i)χmax(i)-χmin(i)⑦
其中,Xij表示第i個樣品的第j個屬性。
在紅外光譜測定中,通常較厚的材料樣品比較薄的材料樣品吸收更多的紅外能量,結果表現(xiàn)為更高的譜峰,但峰值的比值卻相對不變,因此,此操作可以補償光程長造成的影響,消除由于樣品厚度不同帶來的測量誤差,保持光譜的特征。
3.1.2數(shù)據(jù)中心化對光譜數(shù)據(jù)進行數(shù)據(jù)中心化處理。此操作目的是使光譜數(shù)據(jù)分布在零點兩側,不僅充分反映光譜的變化信息,而且使計算簡便,從而提高區(qū)分中藥藥性的能力。
數(shù)據(jù)中心化就是從每個光譜數(shù)據(jù)中減去該樣品的平均值,即:
χij=χij-—χi⑧
其中,χij表示第i個樣品的第j個屬性,—χi為第i個樣品的平均值。
3.1.3數(shù)據(jù)標準化處理光譜數(shù)據(jù)標準化目的就是消除各味中藥光譜數(shù)據(jù)間的量綱差異,使各中藥圖譜間的變化信息具有同等的表現(xiàn)力,既保持每味中藥光譜的各自特征,又可以使各圖譜之間具有比較的能力。本文使用的數(shù)據(jù)標準化公式如下:
χij=χij-—χi—χi⑨
其中—χi為第j個屬性的平均值,—Sj為第j個屬性的標準偏差。
3.2模型構建光譜數(shù)據(jù)預處理后,SHOU先使用主成分分析法對原光譜數(shù)據(jù)進行線性變換求出主成分,實現(xiàn)光譜數(shù)據(jù)的降維,降維后的維數(shù)由方差百分數(shù)判定,判定公式如下:
S2e=∑di=1λi∑pi=1λi
其中,S2e表示d個特征值與p個特征值加和的比值計算出的可被解釋的累計方差。當取S2e=0.97時,可計算出主成分數(shù)為15,即使用15個主成分就可以解釋97%以上的數(shù)據(jù)方差。
確定各中藥紅外光譜的主成分后,使用支持向量機構建模型。本文模型構建選擇libsvm支持向量機[14],采用徑向基函數(shù)為核函數(shù)。由于只選用76味中藥紅外光譜數(shù)據(jù)作為分類指標,故在對主成分數(shù)據(jù)進行分類訓練時采用交叉驗證法,即每次留出一個樣本作為預測數(shù)據(jù),其余樣本參與模型訓練,為了尋找優(yōu)異參數(shù),對求解空間進行網格搜索,以確定優(yōu)異的懲罰參數(shù)C和徑向基函數(shù)的參數(shù)γ。經反復實驗,并對結果進行統(tǒng)計、比較,發(fā)現(xiàn)當懲罰參數(shù)C值為8,徑向基函數(shù)的參數(shù)γ值為0.03125,平性藥與非平性藥的懲罰比例為1∶1時,分類效果優(yōu)異。
3.3藥性預測按照所求出的懲罰參數(shù)C和徑向基函數(shù)的平滑參數(shù)γ建立模型,采用交叉驗證法對藥性進行預測。結果見表2。表2平性藥與非平性藥分類計算結果
4結果與討論
從表2可以看出,采用主成分分析方法對中藥光譜數(shù)據(jù)降維之后,用主成分作為支持向量機輸入,構建得到的中藥平性藥和非平性藥的識別模型,可以比較好的區(qū)分中藥平性藥與非平性藥的藥性,本方法對平性藥識別率為83.33%,非平性藥識別率為82.50%,總體識別率為82.89%。