逐字稿煉金術:從「數據垃圾」到「智慧筆記」的 VS Code 清洗指南

A close-up of a high-tech computer screen displaying VS Code editor with glowing regular expression syntax, futuristic workstation vibe, 16:9 aspect ratio, --ar 16:9

如果您曾經把 Vrew、雅婷逐字稿或 YouTube 自動字幕產出的檔案直接丟給 AI,一定遇過 AI 抓不到重點、回覆緩慢甚至產生幻覺的挫折。今天,大叔要教你如何利用 VS Code 這把最強大的「數位掃帚」,配合 正規表達式 (Regex),在 30 秒內將「數據垃圾」煉化為高品質的「智慧筆記」。

一、為什麼「原始逐字稿」是資料整理的災難?

很多人以為逐字稿越詳細越好,但對於 AI 分析或知識內化來說,原始檔案通常存在以下三個致命問題:

  • 無意義的數位噪音: 充斥大量序號與時間軸(如 00:12 --> 00:15),這些數字會浪費 AI 的 Tokens 運算額度
  • 破碎的語義脈絡: 逐字稿為了配合字幕顯示,每行字數過短,強迫換行會干擾 AI 拼湊完整句意的效能。
  • 人類口語贅字: 大量的「然後、那個、呃」會稀釋內容含金量,讓核心重點變得模糊。

二、VS Code 煉金解法:正規表達式 (Regex) 全方位清洗

我們將使用 VS Code 內建的搜尋與取代功能,配合「正規表達式」像篩子一樣過濾雜質。

🛠️ 準備工作:開啟魔法開關

在 VS Code 中按下 Ctrl + H 開啟「取代」視窗,並務必點亮搜尋框右側的 .* (使用正規表達式)圖示。

第一步:剷除序號行 (Index Numbers)

功能:刪除每一段開頭的純數字編號,避免干擾清單排序。

Find (尋找): ^\d+\n
Replace (取代為): (留空)

白話解析: 尋找「行首為數字且結尾是換行」的內容並將其抹除。

第二步:抹除時間軸 (Timestamps)

功能:徹底清除 00:00:01 這種時間標記,釋放大量 Token 空間。

Find (尋找): \d{2}:\d{2}.*\n
Replace (取代為): (留空)

白話解析: 尋找以「兩位數:兩位數」開頭的所有行,直接讓它們消失。

Code cleanup and optimization concept
🏮 離火煉金筆記:清洗過的數據,能讓 AI 分析的精準度提升 40% 以上。

第三步:織補破碎段落 (Paragraph Weaving)

功能:把被切斷的短句接回長句子,方便 AI 閱讀整體的語義邏輯。

Find (尋找): \n
Replace (取代為):   (輸入一個空格)

第四步:清除多餘空白 (Whitespace Cleanup)

功能:解決合併段落後產生的連續空格,維持排版整潔。

Find (尋找):  + 
Replace (取代為):   (一個空格)

📊 煉金術快捷指令對照表

任務 搜尋語法 (Regex) 處理效果
刪除數字行 ^\d+\n 去除 1, 2, 3... 序號
刪除時間軸 \d{2}:\d{2}.*\n 去除 00:00 等時間資訊
合併破碎行 \n 變成連續的長段落
合併多餘空白 + 讓文字排版更乾淨

技術提點:在處理大規模數據前,建議先備份原始檔案,或在 VS Code 中善用「復原 (Ctrl+Z)」功能進行測試。

張貼留言

較新的 較舊