悅暢小說 > 職場小聰明 > 第961章 AI裡的白盒黑盒和正則化

第961章 AI裡的白盒黑盒和正則化

⬅ 上一章 📋 目錄 ⚠ 報錯 下一章 ➡
⭐ 加入書籤
推薦閱讀: 花都風流第一兵王 代嫁寵妻是替身 天鋒戰神 穿越古代賺錢養娃 我覺醒了神龍血脈 我的老婆國色天香 隱婚嬌妻別想跑 遲遲也歡喜 全職獵人之佔蔔師

白盒模型和黑盒模型,就是人工智慧的兩種演算法,白盒顧名思義,可以用人的理解,就是決策樹,葉子大於5放左邊,葉子小於五放右邊,然後繼續往下一層,就是無限的分類,可以理解,而黑盒模型就不一樣了,是機器學習,多層神經網絡,每個層的一定數量神經元全連接,數據反覆自己的調參,加權重,也就是什麼數據重要,什麼不重要,但都要,隻是分量不一樣,然後還會根據結果是否準確率高再刪除一些數據,再進行反向調參,正向叫線性編程,反向就是迴歸,反正就是倒騰幾百萬次,數據變來變去,人無法理解,最後出來一個模型,就可以跟現有數據高度吻合

這是一個白盒模型,決策樹,可以一層層的分類,容易理解。

正則化(Regularization):原理、方法與應用

在機器學習和深度學習中,過擬合(Overfitting)是模型訓練的核心挑戰之一——模型在訓練數據上表現極佳,但在未見過的測試數據上泛化能力差。正則化正是解決這一問題的關鍵技術,其核心思想是通過在損失函數中引入“懲罰項”,限製模型參數的複雜度,迫使模型學習更簡單、更具泛化性的特征,而非死記硬背訓練數據中的噪聲。

一、正則化的核心目標與本質

1.核心目標

平衡“模型擬合能力”與“泛化能力”:避免模型因過度追求訓練誤差最小化,而忽略對新數據的適應性。

控製模型複雜度:複雜度過高的模型(如高次多項式、深層神經網絡)易學習訓練數據中的噪聲,正則化通過約束參數規模降低複雜度。

2.本質理解

正則化的本質是**“奧卡姆剃刀原理”在機器學習中的體現**——在多個能擬合數據的模型中,選擇“最簡單”(參數更簡潔、特征更通用)的模型,其泛化能力通常更強。例如:用多項式擬合數據時,一次函數(y=ax+b)比五次函數(y=ax?+bx?+...+e)更簡單,若兩者在訓練數據上誤差接近,一次函數對新數據的預測更穩定。

二、經典正則化方法(針對傳統機器學習)

傳統機器學習(如線性迴歸、邏輯迴歸、支援向量機)中,正則化主要通過對模型參數的“範數懲罰”實現,常見有L1、L2正則化,以及兩者結合的ElasticNet。

1.L2正則化(嶺迴歸,RidgeRegression)

原理

L2正則化通過在損失函數中加入參數的平方和懲罰項,限製參數的“整體規模”(避免參數值過大)。以線性迴歸為例:

原始損失函數(均方誤差MSE加入L2正則後的損失函數:其中:(正則化強度):控製懲罰力度,時退化為原始模型,越大懲罰越強(參數越接近0):模型的權重參數(不含偏置項,因偏置項僅影響整體偏移,不直接導致過擬合):為了求導後抵消係數,簡化計算(非必需,僅影響的數值尺度)。

核心特點

參數“收縮”(Shrinkage)

:L2懲罰會讓所有參數向0靠近,但不會將參數直接置為0(參數值整體變小,但保留所有特征)。

抗噪聲能力強

:參數值減小後,模型對輸入數據的微小波動(噪聲)更不敏感,泛化性提升。

適用場景

:特征之間存在相關性、不希望刪除任何特征的場景(如醫學特征,每個指標都可能有意義)。

2.L1正則化(套索迴歸,LassoRegression)

原理

L1正則化通過在損失函數中加入參數的絕對值和懲罰項,實現“參數稀疏化”(即強製部分參數變為0,相當於刪除冗餘特征)。以線性迴歸為例,加入L1正則後的損失函數:核心特點

參數稀疏化

:L1的絕對值懲罰會導致部分參數被“壓縮”到0,從而自動完成“特征選擇”(刪除對模型貢獻極小的特征)。例:用Lasso處理“房價預測”數據時,若“小區綠化率”的參數被置為0,說明該特征對房價影響可忽略,模型訓練時無需考慮。

計算挑戰:絕對值函數在處不可導,傳統梯度下降無法直接使用,需用“次梯度下降”“座標下降”等特殊優化方法。

適用場景

:特征維度高、存在大量冗餘特征的場景(如文字分類中的詞袋模型,特征數可能達數萬,需篩選核心詞彙)。

3.L1與L2的對比:為什麼L1能稀疏化?

L1和L2的核心差異源於懲罰項的“幾何形狀”,可通過“約束域”直觀理解:假設模型僅含兩個參數和,正則化等價於在“參數空間”中加入一個約束域,損失函數的最優解需落在“約束域與損失函數等高線的切點”上:

L2的約束域是圓形:切點通常不在座標軸上,因此參數不會為0;

L1的約束域是正方形:正方形的頂點在座標軸上(如,切點更易落在頂點,導致某一參數為0。

對比維度

L1正則化(Lasso)

L2正則化(Ridge)

懲罰項形式(絕對值和)(平方和)參數效果部分參數置為0(稀疏化\/特征選擇)

所有參數縮小,不置為0

抗多重共線性

弱(可能刪除相關特征中的一個)

強(通過縮小參數緩解相關性影響)

優化難度

高(不可導,需特殊方法)

低(可導,支援梯度下降)

適用場景

高維、冗餘特征數據

特征均有意義、需保留所有特征

4.ElasticNet(彈性網絡):L1與L2的結合

為兼顧L1的“特征選擇”和L2的“抗共線性”,ElasticNet同時引入L1和L2懲罰項,損失函數為:其中控製L1強度,控製L2強度。適用場景:特征維度極高且存在多重共線性的場景(如基因數據,特征數遠大於樣本數,且基因間存在相關性)。

三、深度學習中的正則化方法

深度學習模型(如CNN、Transformer)參數規模龐大(動輒千萬級),過擬合風險更高,除了上述L1\/L2,還需針對性的正則化技術。

1.權重衰減(WeightDecay)

本質

:深度學習中L2正則化的常用實現方式,通過在優化器中直接對參數進行“按比例衰減”(如SGD、Adam優化器均支援weight_decay參數)。

原理

:每次參數更新時,先將參數乘以一個小於1的係數(如0.99),再進行梯度下降,等價於在損失函數中加入L2懲罰項。

注意

:權重衰減僅作用於權重參數,不作用於偏置項和BatchNorm的參數(因這些參數對模型複雜度影響小)。

2.Dropout(隨機失活)

原理

(以全連接層為例):訓練時,隨機“關閉”(置為0)一部分神經元(比例由參數p控製,通常取0.2~0.5),迫使模型不依賴某一特定神經元,學習更魯棒的特征;測試時,不關閉任何神經元,而是將所有神經元的輸出乘以

就是(或對權重進行縮放),保證輸出分佈一致。

示例

:一個含100個神經元的全連接層,p=0.5時,每次訓練迭代會隨機選擇50個神經元置為0,僅用剩餘50個神經元計算;測試時,100個神經元全部啟用,輸出乘以0.5。

核心作用

:避免“神經元共適應”(即多個神經元依賴彼此的錯誤特征),模擬“整合學習”(每次訓練都是一個不同的小模型,測試時融合所有小模型的預測)。

3.BatchNormalization(批量歸一化,BN)

原理

:對每一層的輸入數據進行“標準化”(使數據均值為0、方差為1),並引入可學習的縮放參數和偏移參數,增強模型靈活性。

正則化效果

:訓練時,BN使用“批次內數據的均值和方差”,測試時使用“訓練過程中移動平均的均值和方差”,這種差異會給模型帶來微小的噪聲,間接抑製過擬合。

附加價值

:加速模型收斂(避免梯度消失\/爆炸),允許使用更高的學習率,是深度學習的“標配”技術之一(雖非專門為正則化設計,但正則化效果顯著)。

4.早停(EarlyStopping)

原理

:訓練過程中,持續監控模型在驗證集上的效能(如準確率、損失);當驗證集效能不再提升(甚至下降)時,立即停止訓練,避免模型繼續學習訓練數據中的噪聲。

本質

:通過限製訓練迭代次數,防止模型“過度訓練”,相當於在“模型複雜度隨訓練次數增長”的過程中,選擇“泛化能力最強”的中間狀態。

操作步驟

將數據分為訓練集、驗證集、測試集;

每次迭代後,計算驗證集損失;

若驗證集損失連續k次(如10次)未下降,停止訓練,儲存此時的模型參數。

5.數據增強(DataAugmentation)

原理

:通過對訓練數據進行“隨機變換”(不改變標簽),人工擴大訓練集規模,讓模型接觸更多樣化的樣本,減少對原始數據噪聲的依賴。

常見手段

(以圖像數據為例):

幾何變換:隨機裁剪、翻轉、旋轉、縮放;

畫素變換:隨機調整亮度、對比度、飽和度、新增高斯噪聲;

高級變換:MixUp(將兩張圖像按比例混合)、CutMix(將一張圖像的部分區域替換為另一張圖像)。

核心優勢

:不增加模型複雜度,僅通過數據層麵的優化提升泛化能力,是計算機視覺、NLP(如文字同義詞替換)中最常用的正則化方法之一。

6.其他深度學習正則化技術

LabelSmoothing(標簽平滑)

:將硬標簽(如分類任務的[0,1,0])替換為軟標簽(如[0.1,0.8,0.1]),避免模型對“正確標簽”過度自信,緩解過擬合。

MixUp\/CutMix

:通過樣本混合,讓模型學習更通用的特征(如MixUp將“貓”和“狗”的圖像混合,標簽按比例分配,迫使模型關注“毛髮”“耳朵”等通用特征而非噪聲)。

知識蒸餾(KnowledgeDistillation)

:用“複雜教師模型”的輸出指導“簡單學生模型”訓練,學生模型在繼承教師模型泛化能力的同時,保持低複雜度。

四、正則化的關鍵實踐要點

正則化強度的選擇是正則化的核心超參數,需通過交叉驗證(Cross-Validation)確定:

嘗試多個值(如0.001,0.01,0.1,1,10);

對每個,用K折交叉驗證(如5折)訓練模型,計算驗證集平均效能;

選擇使驗證集效能最優的

過大易導致“欠擬合”,即模型過於簡單,無法擬合數據規律)。

數據預處理的影響L1\/L2正則化對特征尺度敏感(如“收入”(萬元級)和“年齡”(十位數)的參數規模差異大,懲罰時會偏向縮小“收入”參數),因此需先對特征進行標準化(Standardization)或歸一化(Normalization),使所有特征處於同一尺度。

不同模型的正則化選擇

傳統線性模型:優先嚐試L2(Ridge),若特征冗餘多則用L1(Lasso)或ElasticNet;

深度學習模型:基礎組合為“權重衰減+Dropout+數據增強”,BN通常作為標配,複雜任務可加入LabelSmoothing或MixUp;

小樣本任務:數據增強和早停的效果更顯著(因數據量少,模型易過擬合)。

五、總結

正則化是機器學習的“防過擬合利器”,其核心是“通過約束模型複雜度,提升泛化能力”。不同場景下需選擇合適的正則化方法:

傳統模型:L1(特征選擇)、L2(抗共線性)、ElasticNet(兼顧兩者);

深度學習:權重衰減、Dropout、數據增強、早停等組合使用;

關鍵超參數

需通過交叉驗證優化,避免欠擬合或過擬合。

掌握正則化技術,是從“訓練出高準確率模型”到“訓練出穩定泛化模型”的關鍵一步。

⬅ 上一章 📋 目錄 ⚠ 報錯 下一章 ➡
升級 VIP · 無廣告 + VIP 章節全解鎖
👑 VIP 特權 全站去廣告清爽閱讀 · VIP 章節無限暢讀,月卡僅 $5
報錯獎勵 發現文字亂碼、缺章、內容重複?點上方「章節報錯」回報,審核通過立獲 3天VIP
書單獎勵 前往 個人中心 投稿你的私藏書單,審核通過立獲 7天VIP
⭐ 立即升級 VIP · 月卡僅 $5
還沒有帳號? 免費註冊 | 登入後購買