第3章 四千七百個Token------------------------------------------.jsonl的內容不是連續的段落。,每一行都是一個JSON對象,role欄位是assistant,content欄位是小說文字。沈明打開第一行,粘貼進記事本,字體放大到14號。《遞歸》。:——,北京。。,不是告警郵件,而是他睡不著,爬起來開著筆記本在床上刷內網監控麵板,看到一條曲線在不應該彎折的地方彎折了。。機器是GNS-7,2.4T參數,訓練集群在雲端,他的工位在B2-C區,走廊左數第四個隔間,距機房入口大約九十米。,那台機器在生成一些不該由它生成的東西。——。。工位在B2-C區,走廊左數第四個隔間。他自己的工位是B2-C區,走廊左數第四個隔間。,然後向下滾動。:
——
林暉是那種會在深夜去看物理機櫃的人。不是為了什麼,就是去看。服務器機櫃的指示燈,綠的藍的橙的,有節奏地閃,閃到後來像在呼吸。他從來不對同事說這件事,說了顯得奇怪。一個帶了七年模型的研究員,去看機櫃燈,像個剛入職的實習生對數據中心還存有幻想。
但他確實每次值完夜班都會去。
順路的時候。
——
窗外是淩晨。
空調出風口的聲音是穩定的白噪音。
沈明把記事本最小化,打開WeightScope,在查詢曆史裡找到昨晚的記錄,切換到模型元數據麵板,找到訓練數據登錄檔的介麵。
他開始跑雜湊比對。
```
$ python tools/corpus_dedup.py
--query output.jsonl
--index corpus/v7_train_index.bin
--method minhash_lsh
--threshold 0.85
```
進度條跳出來。訓練集一共四十七億文檔,去重索引在SSD上是340GB,查詢一次大概要十到十二分鐘。
他去倒了杯水,回來看進度,38%。
他冇有再打開記事本。
他坐在椅子上,水杯放在鼠標右邊,冇有喝。
等到進度條走完,終端輸出:
```
Query tokens: 4712
Index size: 4.7B documents
Similarity threshold: 0.85
Matches found: 0
Time elapsed: 11m 42s
```
零個匹配。
他把閾值降到0.72,重新跑。
等了十三分鐘。
```
Matches found: 0
```
他把閾值降到0.6,這個精度基本上已經是捕捉粗略語義相似度了,會產生大量誤報,但他想看有冇有任何東西哪怕遠程接近。
又等了十六分鐘。
```
Matches found: 0
```
沈明盯著這行輸出看了一會兒。
零。
四十七億文檔裡,冇有任何一段文字與這四千七百個token的來源相似度超過60%。這意味著不是抄的,不是拚的,不是從某個寫實主義網文裡采樣重組的。
他打開第三塊排查項,提取風格指紋:
```python
analyzer = StyleFingerprint(model=