看到這個標題,你可能會覺得是噱頭。
誰不知道ChatGPT模型有1750億以上的參數,彆說是在筆記本電腦上跑,就是使用高效能GPU的台式機,也無法帶得動啊。
老老實實調用API不好嗎?其實,LLM(大語言模型)有非常寬泛的參數量範圍。
咱們今天介紹的這個模型GPT4All隻有70億參數,在LLM裡麵現在算是妥妥的小巧玲瓏。
不過看這個名字你也能發現,它確實是野心勃勃,照著ChatGPT的效能去對標的。
GPT4All基於Meta的LLaMa模型訓練。
你可能立即覺得不對,你這跟GPT有啥關係?為什麼要無端蹭熱度?且慢,GPT4All確實和ChatGPT有關——它用來微調的訓練數據,正是調用ChatGPT產生的大量問答內容。
我怕你對技術細節不感興趣,因此隻用下麵這張圖來說明GPT4All的訓練過程。
??GPT4All其實就是非常典型的蒸餾(distill)模型——想要模型儘量靠近大模型的效能,又要參數足夠少。
聽起來很貪心,是吧?據開發者自己說,GPT4All雖小,卻在某些任務類型上可以和ChatGPT相媲美。
但是,咱們不能隻聽開發者的一麵之辭。
還是試試看比較好,你說是吧?深度神經網絡由多個層組成。
每一層包含處理輸入數據並通過非線性啟用函數(Sigmoid或ReLU)傳遞給其他層的神經元。
每一層的輸出會傳遞給另一層,在傳遞給下一層進行進一步處理之前,這一層會對這箇中間表示進行某種操作。
這個架構可以分為兩個主要部分:輸入層和輸出層。
輸入層-這表示一組輸入,這些輸入被送入人工神經網絡(ANN)作為訓練數據或測試數據,然後由深度學習演算法使用,以根據曆史資訊(例如過去的交易等)預測未來事件\/結果,這一過程使用輸入層及其相關權重。
輸出層-這表示一組輸出,這些輸出在經過人工神經網絡內部的各個層(例如卷積神經網絡、循環神經網絡或長短時記憶網絡)處理後被送回到ANN中,然後由深度學習演算法使用,以根據曆史資訊(例如過去的交易等)預測未來事件\/結果,這一過程使用輸出層及其相關權重。
深度學習模型的架構可能會因各種因素而有所不同,例如數據類型、特征數量、目標變量或正在解決的分類問題。
Transformer是一類深度學習架構,在自然語言處理(NLP)和其他領域中已變得非常流行,這歸功於它們強大的效能和可擴展性。
Transformer首次在Vaswani等人於2017年發表的論文\