逐字稿煉金術：從「數據垃圾」到「智慧筆記」的 VS Code 清洗指南

A close-up of a high-tech computer screen displaying VS Code editor with glowing regular expression syntax, futuristic workstation vibe, 16:9 aspect ratio, --ar 16:9

如果您曾經把 Vrew、雅婷逐字稿或 YouTube 自動字幕產出的檔案直接丟給 AI，一定遇過 AI 抓不到重點、回覆緩慢甚至產生幻覺的挫折。今天，大叔要教你如何利用 VS Code 這把最強大的「數位掃帚」，配合正規表達式 (Regex)，在 30 秒內將「數據垃圾」煉化為高品質的「智慧筆記」。

一、為什麼「原始逐字稿」是資料整理的災難？

很多人以為逐字稿越詳細越好，但對於 AI 分析或知識內化來說，原始檔案通常存在以下三個致命問題：

無意義的數位噪音：充斥大量序號與時間軸（如 00:12 --> 00:15），這些數字會浪費 AI 的 Tokens 運算額度。
破碎的語義脈絡：逐字稿為了配合字幕顯示，每行字數過短，強迫換行會干擾 AI 拼湊完整句意的效能。
人類口語贅字：大量的「然後、那個、呃」會稀釋內容含金量，讓核心重點變得模糊。

二、VS Code 煉金解法：正規表達式 (Regex) 全方位清洗

我們將使用 VS Code 內建的搜尋與取代功能，配合「正規表達式」像篩子一樣過濾雜質。

🛠️ 準備工作：開啟魔法開關

在 VS Code 中按下 Ctrl + H 開啟「取代」視窗，並務必點亮搜尋框右側的 .* (使用正規表達式)圖示。

第一步：剷除序號行 (Index Numbers)

功能：刪除每一段開頭的純數字編號，避免干擾清單排序。

Find (尋找): ^\d+\n
Replace (取代為): (留空)

白話解析：尋找「行首為數字且結尾是換行」的內容並將其抹除。

第二步：抹除時間軸 (Timestamps)

功能：徹底清除 00:00:01 這種時間標記，釋放大量 Token 空間。

Find (尋找): \d{2}:\d{2}.*\n
Replace (取代為): (留空)

白話解析：尋找以「兩位數:兩位數」開頭的所有行，直接讓它們消失。

🏮 離火煉金筆記：清洗過的數據，能讓 AI 分析的精準度提升 40% 以上。

第三步：織補破碎段落 (Paragraph Weaving)

功能：把被切斷的短句接回長句子，方便 AI 閱讀整體的語義邏輯。

Find (尋找): \n
Replace (取代為):   (輸入一個空格)

第四步：清除多餘空白 (Whitespace Cleanup)

功能：解決合併段落後產生的連續空格，維持排版整潔。

Find (尋找):  + 
Replace (取代為):   (一個空格)

📊 煉金術快捷指令對照表

任務	搜尋語法 (Regex)	處理效果
刪除數字行	`^\d+\n`	去除 1, 2, 3... 序號
刪除時間軸	`\d{2}:\d{2}.*\n`	去除 00:00 等時間資訊
合併破碎行	`\n`	變成連續的長段落
合併多餘空白	`+`	讓文字排版更乾淨

技術提點：在處理大規模數據前，建議先備份原始檔案，或在 VS Code 中善用「復原 (Ctrl+Z)」功能進行測試。

逐字稿煉金術：從「數據垃圾」到「智慧筆記」的 VS Code 清洗指南

一、為什麼「原始逐字稿」是資料整理的災難？

二、VS Code 煉金解法：正規表達式 (Regex) 全方位清洗

🛠️ 準備工作：開啟魔法開關

第一步：剷除序號行 (Index Numbers)

第二步：抹除時間軸 (Timestamps)

第三步：織補破碎段落 (Paragraph Weaving)

第四步：清除多餘空白 (Whitespace Cleanup)

📊 煉金術快捷指令對照表

張貼留言

精選文章

Python 縮排規則：用空白定義程式碼區塊

同一個旋鈕，七種世界：電磁波譜一次看懂

聯絡表單