2025-12-20 07:02:00Tony_CHAN

技術如何改寫音樂的真實感?


近日比較兩種錄音:一種是舊年代現場錄音,聲音未必乾淨,拍子會浮、音準會有細微偏差,但整體有一種「在場」感;另一種是新年代錄音,所有音都好準,鼓點好齊,聲像好靚,但聽下去反而有點「像產品」,不是像事件。這令我開始重新問:我們所講的「真實感」其實是甚麼?甚麼真是等於「冇修正」?還是它其實一直都被技術定義當中,只是我們習慣了某個時代的標準,就誤以為那個標準是自然的。技術必然是最核心的改寫力量,因為它直接改寫「聲音如何存在」與「人如何聽」。


真實感是一種被訓練出來的期待

「真實感」經常被講得好像一種客觀品質:真就真,假就假。但如果把它當作聽覺心理來看,真實感其實更像「符合期待」。你覺得真往往是因為它符合你對某類聲音的預期模型:現場應該怎樣、錄音應該怎樣、人聲應該怎樣、鼓應該怎樣。問題是,這些「應該」是長期收聽環境訓練出來的。

同一個錄音,在不同年代會被聽成不同結果。某些七、八十年代錄音的房間殘響、樂手呼吸聲、麥克風漏音,以前被視為正常甚至高級;在某些高度數碼化年代,反而可能被聽成「唔夠乾淨」。所以真實感是「技術塑造你以為正常的聲音邊界」。換句話說,真實感是一種歷史性的聽覺習慣。


錄音技術把「事件」變成「物件」,真實感從互動轉向可複製

錄音出現之前,音樂是一個事件:同一首曲,每次演出都不同,真實感來自你與演出現場的共同時間。你聽到是一次性發生的版本。這種真實感的核心是共同在場與不可重複。

但錄音把音樂變成「物件」。當聲音可以被固定、被搬運、被複製、被重播,聽者開始以錄音版本作為標準。你是在判斷「這次演出像不像我熟悉的那個錄音」。真實感的判準因此轉移:從現場互動轉為「再現度」。而這個再現度本身就依賴技術。

這也解釋一個常見現象:很多人第一次聽現場覺得「差過 CD」,但其實不是現場差,只是你把錄音物件當成真實基準。技術在這裡做的是重新定義真實:真實變成「可複製的穩定版本」。


多軌錄音把「一次完成」拆解成「可編輯」,真實感由能力轉向製作邏輯

多軌錄音的革命不只在音質,而在生產方式。當一首歌可以分開錄鼓、bass、結他、人聲,再逐軌修補與疊加,音樂不再要求一次性完成。作品的「成立」不再依賴樂手當下狀態,而依賴製作流程能否把多個片段組合成一個可信整體。

這令真實感出現結構性變化。以前你聽一個 band 的魅力,很多來自「他們同時做到」;多軌時代之後,魅力可以來自「製作把它做成」。你開始接受一些現場根本做唔到的層次,例如大量和聲疊唱、極密集的配器、完美的對齊。它們不一定是假,但它們的真實感來源是製作的可控性。

所以多軌錄音把「真」由表演倫理變成製作倫理:真實感不再問「你可不可以」,你會問「你做出來像不像一個合理的世界」。這是音樂真實感第一次大規模變成「世界建構」問題。


節奏校正與音高修正改寫「錯誤」:由失誤變成可選參數

當 click track、quantize、beat detective、melodyne、auto-tune 成為標準流程,「錯誤」的定義會被整體拉動。以前拍子微浮是樂手狀態的一部分;現在拍子微浮更常被理解為未修正。以前人聲音準略偏可能被接受為情緒;現在它可能被聽成不專業,尤其在主流製作鏈。

更關鍵的是:修正工具把「時間與音高」變成可調參數。當任何偏差都可被矯正,製作人就必須作出選擇:留多少偏差?留在哪裡?留給誰?這意味著「人味」不再是自然流出,而是被設計出來的比例。很多所謂真實感其實是製作人在「精準與偏差」之間做的一個風格決定。

這也帶來一個反直覺結論:在高度修正環境中,真正的「錯」不再是走音或唔齊,而是風格不一致。聽者不一定討厭修正,但會討厭「修正痕跡暴露」或「修正與曲風不匹配」。真實感在這裡被轉化為「一致性管理」。


精準會被誤認為真實,但精準真正提供的是「可預測」而非「存在」

高度精準的聲音會帶來一種立即的清晰感:鼓點像尺量、低頻乾淨、音準絕對準確、合唱像貼圖一樣齊。這種清晰容易被理解為「真」,因為它降低聽覺的不確定性。你不需要花力氣去辨認,系統已替你完成整理。

但真實感往往是來自「存在痕跡」。存在痕跡包括微小的時間差、力度差、呼吸、音頭不一致、瞬間不完美的轉折。它們不是錯,只是證明「這是一個正在發生的系統」。當精準把所有痕跡都抹平,聲音會變得可預測,但也更像模板。你可能覺得舒服,但不一定覺得「有生命」。

所以問題是精準會把真實感從「事件感」改寫成「工程感」。某些音樂風格需要工程感(例如 EDM 的機械推進),但某些風格需要事件感(例如 blues、某些 rock、某些 live jazz)。真實感是來自不同風格對痕跡容忍度不同。


音色處理把真實感變成「可設計的質地」:真實不再是捕捉,而是合成

以前音色主要由樂器、演奏方式、房間、麥克風決定。今天的音色是鏈式設計:EQ、compression、saturation、reverb、delay、chorus、exciter、noise、bitcrush,甚至用 impulse response 直接把聲音「搬」入另一個空間。這令真實感不再等於「你聽到甚麼」,而變為「你被安排聽到甚麼」。

更重要的是,音色處理改寫了「空間的真」。reverb 不只是美化,它直接建立距離與場域:你覺得人聲近是因為乾聲比例高;你覺得宏大是因為殘響尾音長;你覺得真是因為殘響像某種現場。這些感覺是來自模擬的空間。

因此所謂真實感很多時候其實是「可信的音響敘事」。一個人聲可以在錄音室錄,但被做成像大場館;一支結他可以近咪收音,但被做成像遠距離。真實在技術時代變成「敘事一致」,而不是「來源一致」。


串流時代改寫真實感的時間尺度:由長期沉浸轉為即時成立

串流平台的播放邏輯推動另一種真實感:即時成立。音樂不再主要在專輯情境中被消化,而在碎片化時間中被掃過。於是製作會更重視「前十秒」:人聲要快出、鼓要快入、hook 要快顯示。真實感由「慢慢建立」變成「立即抓住」。

這種時間尺度的變化會回過頭影響製作選擇。動態被壓縮、音量被推高、頻段更飽滿,因為要在手機、耳機、車廂都立即成立。真實感因此更像「可穿透環境噪音的存在感」,而不是「空間裡自然發生的聲音」。

換句話說,串流把真實感從「房間內的真」改寫成「系統內的真」:你要在平台的競爭條件下被聽到,這個被聽到本身就是新的真實標準。


聽者的耳朵被技術重新訓練:真實感是一種集體感知的再校準

技術不只改變製作,也改變聽者。當你長期聽習慣 pitch-perfect、grid-perfect、loudness-optimized 的作品,你的大腦會把它當成常態。於是你回頭聽自然浮動,就會覺得「鬆」、「散」、「不夠穩」。這不是挑剔,只是感知系統被重新校準。

這種校準會形成集體尺度:整個市場、整個平台、整個世代的耳朵同步對齊。結果是某些「舊式真」被重新定義為「技術不足」。而一旦集體尺度改變,製作方就算想保留痕跡,也要思考:保留多少才不會被誤聽成低質。

所以真實感是社會性的。它是整個聲音環境共同決定「甚麼叫正常」。這也是為什麼同一首歌,在不同年代的聽眾之間會出現強烈分歧。


AI 讓真實感從「來源判斷」轉向「模型可信度」

AI 生成把問題推到更深:當聲音可以模擬真人、模擬風格、模擬現場,來源變得不可依賴。你很難再用「是不是人唱」來判斷真實感,因為聲音在感知層面已經足夠像。

於是判準會改變:真實感變成「這個聲音世界是否自洽」。包括情緒是否連貫、呼吸是否合理、句子是否有微差、表達是否有意圖痕跡、演唱是否呈現可追溯的身體限制。AI 若能模擬這些痕跡,就能產生真實感;若只能產生完美但無意圖的結果就會顯得空。

這意味著未來的真實感是來自「可被感知的生成邏輯」問題。人類可能會更重視「意圖與限制」這兩種痕跡,因為它們更難被廉價複製。


小結:技術只是把真實感變成一套可調的制度

回到整體,技術並不是單向地把音樂變假。它做的事更像改寫規則:

    - 錄音把事件變成物件,真實感從在場變成再現

    - 多軌把能力變成流程,真實感從當下變成建構

    - 校正把錯誤變成參數,真實感從自然痕跡變成風格決定

    - 音色處理把空間變成敘事,真實感從捕捉變成合成

    - 串流把時間尺度縮短,真實感從沉浸變成即時成立

    - AI 把來源變得不可靠,真實感從來源判斷轉向模型可信度

所以「真實感」更像一套制度:由技術、平台、製作流程與聽覺習慣共同制定。理解這套制度比單純懷舊或反技術更有用,因為你會知道:你想要的真實感其實可以被設計,但前提是你清楚自己在設計哪一種真。