如果您曾經把 Vrew、雅婷逐字稿或 YouTube 自動字幕產出的檔案直接丟給 AI,一定遇過 AI 抓不到重點、回覆緩慢甚至產生幻覺的挫折。今天,大叔要教你如何利用 VS Code 這把最強大的「數位掃帚」,配合 正規表達式 (Regex),在 30 秒內將「數據垃圾」煉化為高品質的「智慧筆記」。
一、為什麼「原始逐字稿」是資料整理的災難?
很多人以為逐字稿越詳細越好,但對於 AI 分析或知識內化來說,原始檔案通常存在以下三個致命問題:
- 無意義的數位噪音: 充斥大量序號與時間軸(如 00:12 --> 00:15),這些數字會浪費 AI 的 Tokens 運算額度。
- 破碎的語義脈絡: 逐字稿為了配合字幕顯示,每行字數過短,強迫換行會干擾 AI 拼湊完整句意的效能。
- 人類口語贅字: 大量的「然後、那個、呃」會稀釋內容含金量,讓核心重點變得模糊。
二、VS Code 煉金解法:正規表達式 (Regex) 全方位清洗
我們將使用 VS Code 內建的搜尋與取代功能,配合「正規表達式」像篩子一樣過濾雜質。
🛠️ 準備工作:開啟魔法開關
在 VS Code 中按下 Ctrl + H 開啟「取代」視窗,並務必點亮搜尋框右側的 .* (使用正規表達式)圖示。
第一步:剷除序號行 (Index Numbers)
功能:刪除每一段開頭的純數字編號,避免干擾清單排序。
Find (尋找): ^\d+\n
Replace (取代為): (留空)
白話解析: 尋找「行首為數字且結尾是換行」的內容並將其抹除。
第二步:抹除時間軸 (Timestamps)
功能:徹底清除 00:00:01 這種時間標記,釋放大量 Token 空間。
Find (尋找): \d{2}:\d{2}.*\n
Replace (取代為): (留空)
白話解析: 尋找以「兩位數:兩位數」開頭的所有行,直接讓它們消失。
🏮 離火煉金筆記:清洗過的數據,能讓 AI 分析的精準度提升 40% 以上。
第三步:織補破碎段落 (Paragraph Weaving)
功能:把被切斷的短句接回長句子,方便 AI 閱讀整體的語義邏輯。
Find (尋找): \n
Replace (取代為): (輸入一個空格)
第四步:清除多餘空白 (Whitespace Cleanup)
功能:解決合併段落後產生的連續空格,維持排版整潔。
Find (尋找): +
Replace (取代為): (一個空格)
📊 煉金術快捷指令對照表
| 任務 | 搜尋語法 (Regex) | 處理效果 |
|---|---|---|
| 刪除數字行 | ^\d+\n |
去除 1, 2, 3... 序號 |
| 刪除時間軸 | \d{2}:\d{2}.*\n |
去除 00:00 等時間資訊 |
| 合併破碎行 | \n |
變成連續的長段落 |
| 合併多餘空白 | + |
讓文字排版更乾淨 |
技術提點:在處理大規模數據前,建議先備份原始檔案,或在 VS Code 中善用「復原 (Ctrl+Z)」功能進行測試。
Tags
數位筆記