研究與開(kāi)發(fā)
數(shù)據(jù)分析
多變量統(tǒng)計(jì)方法可以達(dá)到降維的目的,并且不受變量多重共線(xiàn)性的限制。
譜圖經(jīng)過(guò)一定的前處理,然后進(jìn)行分段積分,通常一張譜圖會(huì)分成上千個(gè)積分段,每一段就是一個(gè)變量,每個(gè)樣本的特征就由這些變量來(lái)共同定義的。
在積分?jǐn)?shù)據(jù)用于多變量分析之前,先要對(duì)數(shù)據(jù)進(jìn)行歸一化(normalization)和標(biāo)準(zhǔn)化(scaling)處理。
代謝組學(xué)數(shù)據(jù)分析中常用的多變量統(tǒng)計(jì)分析方法主要包括主成分分析(principal component analysis,PCA),偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)和正交化偏最小二乘判別分析(orthogonal projection to latent structure discriminant analysis,OPLS-DA)。
在代謝組學(xué)研究中,由于樣本量有限,通常使用內(nèi)部驗(yàn)證方法對(duì)模型的有效性進(jìn)行檢驗(yàn)。常用的內(nèi)部驗(yàn)證方法有交叉驗(yàn)證(cross-validation,CV)、排列實(shí)驗(yàn)(permutation test)和CV-ANOVA(varianceanalysis of the cross-validated residuals)。
經(jīng)過(guò)驗(yàn)證確實(shí)有效的模型,可以通過(guò)提取其第一主成分找到對(duì)組間區(qū)分貢獻(xiàn)大的變量,即發(fā)生顯著性變化的代謝物。變量是否對(duì)組間區(qū)分有顯著性貢獻(xiàn)通過(guò)變量與第一主成分得分值的Pearson 相關(guān)系數(shù)r 來(lái)確定,根據(jù)樣本量和r 臨界值表來(lái)確定P < 0.05 時(shí)具有統(tǒng)計(jì)學(xué)顯著性的臨界值。第一主成分的載荷(loading)經(jīng)過(guò)回溯轉(zhuǎn)換,采用Matlab 軟件等可以繪制出相關(guān)系數(shù)負(fù)載圖。



