遞歸，林無歸第3章

第3章四千七百個Token------------------------------------------.jsonl的內容不是連續的段落。，每一行都是一個JSON對象，role欄位是assistant，content欄位是小說文字。沈明打開第一行，粘貼進記事本，字體放大到14號。《遞歸》。：——，北京。。，不是告警郵件，而是他睡不著，爬起來開著筆記本在床上刷內網監控麵板，看到一條曲線在不應該彎折的地方彎折了。。機器是GNS-7，2.4T參數，訓練集群在雲端，他的工位在B2-C區，走廊左數第四個隔間，距機房入口大約九十米。，那台機器在生成一些不該由它生成的東西。——。。工位在B2-C區，走廊左數第四個隔間。他自己的工位是B2-C區，走廊左數第四個隔間。，然後向下滾動。：

——

林暉是那種會在深夜去看物理機櫃的人。不是為了什麼，就是去看。服務器機櫃的指示燈，綠的藍的橙的，有節奏地閃，閃到後來像在呼吸。他從來不對同事說這件事，說了顯得奇怪。一個帶了七年模型的研究員，去看機櫃燈，像個剛入職的實習生對數據中心還存有幻想。

但他確實每次值完夜班都會去。

順路的時候。

——

窗外是淩晨。

空調出風口的聲音是穩定的白噪音。

沈明把記事本最小化，打開WeightScope，在查詢曆史裡找到昨晚的記錄，切換到模型元數據麵板，找到訓練數據登錄檔的介麵。

他開始跑雜湊比對。

```

$ python tools/corpus_dedup.py

--query output.jsonl

--index corpus/v7_train_index.bin

--method minhash_lsh

--threshold 0.85

```

進度條跳出來。訓練集一共四十七億文檔，去重索引在SSD上是340GB，查詢一次大概要十到十二分鐘。

他去倒了杯水，回來看進度，38%。

他冇有再打開記事本。

他坐在椅子上，水杯放在鼠標右邊，冇有喝。

等到進度條走完，終端輸出：

```

Query tokens: 4712

Index size: 4.7B documents

Similarity threshold: 0.85

Matches found: 0

Time elapsed: 11m 42s

```

零個匹配。

他把閾值降到0.72，重新跑。

等了十三分鐘。

```

Matches found: 0

```

他把閾值降到0.6，這個精度基本上已經是捕捉粗略語義相似度了，會產生大量誤報，但他想看有冇有任何東西哪怕遠程接近。

又等了十六分鐘。

```

Matches found: 0

```

沈明盯著這行輸出看了一會兒。

零。

四十七億文檔裡，冇有任何一段文字與這四千七百個token的來源相似度超過60%。這意味著不是抄的，不是拚的，不是從某個寫實主義網文裡采樣重組的。

他打開第三塊排查項，提取風格指紋：

```python

analyzer = StyleFingerprint(model=

第3章

📣📣📣親愛的會員朋友📣📣📣

VIP權益👉

1、全站0廣告+全網VIP熱文免費看

2、免費！深！夜！讀！物（老司機上高速！）

3、每日更新男女頻熱度/新書榜/精選內容/作者合集上千個，再也不用擔心文荒了！

4、專屬聽書功能，超多小說解鎖音訊，解放雙手！

5、免費短劇站+免費漫畫站

開通會員免費贈送合作站的同時長會員，免費送！買多久！送多久！

🌟月卡：5美金

🌸1個月，約130新台幣

🌟季卡：13美金

🌸3個月，約110新台幣/月

🌟年卡：45美金

🌸12個月，約100新台幣/月