AI與有聲書．技術篇》AI是有聲書的下一步嗎？有聲書製作的新模式與新門檻

Openbook閱讀誌

1 月 3 日

IPFS

目前有聲書的主流商業模式有兩種：單品買斷與串流訂閱制。這兩種機制，在臺灣有限的市場規模中都面臨各自的問題，而生成式AI能否成為解決這些問題的助力呢？

撰文｜陳家豪

疫情期間，聲音經濟崛起。在臺灣，Podcast在2020年上半開始受到主流市場關注。一年後，另一種形式的聲音產品也開始獲得大量討論——形式更長、製作專業度更高的有聲書。

就如Podcast可以視為廣播節目的衍生產品，有聲書本身也並不是什麼新興產品。將近100年前，美國的愛書人便已經可以用聽覺來享受莎士比亞劇本。拉到近代，Amazon旗下有聲書龍頭Audible早在1995年成立，至今已經有上億使用者。

不過在臺灣，有聲書要如Podcast一般百花齊放，一直有個難以跨越的門檻，那就是高昂的製作成本。即使到了2023年，有聲書勉強可說是穩定成長，但始終沒有像歐美一樣成為幾乎人人習以為常的閱讀形式。

隨著AI技術的突破，這個困境或許出現鬆動的可能，甚至為有聲書產業帶來更遼闊的想像，例如挑選自己喜愛的聲線，即時生成有聲書；或者名人／作家授權他們的聲音，讓AI以其音色快速生產有聲書。

在實踐想像的未來之前，我們且先檢視現有的問題。

➤製作成本若無法降低，有聲書量產不易

不同於Audible上大量的英文有聲書，臺灣腔的中文有聲市場規模非常小。這是出版社普遍對有聲書市場的認知。

相較於Podcast，有聲書的高額成本，使得獲利的難度也相對增加：要將既有文字書轉化成有聲書，出版社需支付額外的版權費用。其次，有聲書也難以依靠置入性行銷來賺取利潤。不只如此，由專業出版社製作有聲書，製作上有一定的品質要求，難以快速量產或壓低成本。

2021年時，專營有聲書的遍路文化執行長吳巧亮曾透露，在出版社自家建置了錄音室的情況下，製作一本有聲書的成本約需6至7萬元，就算是10萬字以內（字數較少）的書籍，也需3至5萬元。吳巧亮表示，為了有效回收製作成本，出版社必須精準選擇有聲書的製作品項。

有聲書的製作程序可粗略分為：事前授權、腳本規劃、聲音演出錄音，以及潤飾和增添音效等後製程序。以目前已有逾40萬下載次數，超過6000種有聲產品的親子天下有聲App為例，曾任該公司數位產品內容企劃中心產品長的王昭棠不諱言，親子天下經營有聲書平臺5年，包括平臺開發、書籍授權及有聲書製作等整體成本，目前已花費超過百萬元，不是一個可以忽視的小數目。

雖然要以多少資源進入有聲書市場，端看每間出版社的資本，但無論大小出版社，需要付出的支出中，聲音錄製都是一項不容小覷的持續開銷。王昭棠指出，出版社的有聲書製作規格，必須有專業配音員及錄音室配合，因此有聲書製作生命周期中，聲音錄製是花費最高的環節。

市場小加上錄音成本高昂，是臺灣有聲書製作的一大門檻。吳巧亮於2021年揭露，當時遍路的產能大約是1個月1至2本有聲書。已經投入專業錄音室的出版社如此，可以想見，臺灣有聲書產量要達到Podcast般百花齊放的規模，還有很遙遠的距離。

然而，人工智慧技術的飛躍進步，似乎讓有聲書市場現有的困境出現了一絲轉機。

➤生成式AI普及化，能否用於壓低聲音錄製成本？

經過2023一整年的發酵，跨入2024年的今天，專精於自然語言處理（NLP）的生成式AI技術大為普及，各大科技巨頭紛紛推出自己的大型語言模型（LLM），供下游廠商及使用者以不同形式來運用。從文字生成、程式碼生成、圖像生成到音訊生成，生成式AI都做得到，而且成果越來越精細。

生成式AI的應用，是否有助於降低有聲書的製作成本，提高市場的能見度？要回答這個問題，讓我們先盤點既有的技術。

目前已被廣泛應用的聲音生成技術是Text-to-speech（TTS）。簡單來說，TTS可以分析文本、將文本拆解為音位（Phoneme），再根據這些音位，生成模仿人類說話的音訊。

一般來說，電腦程式難以深度分析文字中的情緒、情境及潛臺詞，因此由TTS產生的語音，通常顯得呆板、不自然。不過，這類TTS技術已經具有實用價值，常見的應用如ATM無障礙語音引導功能、導航系統的導航員聲音等，純粹傳達訊息用的情境。

結合更先進AI演算法的語音生成式AI則不同。理論上，自然語言處理的AI可以更深度分析出先前TTS技術難以處理的文本語意，並生成更自然、更能表現情緒的人聲。甚至，還可以用真人的人聲來訓練AI，使其模仿真人聲音來生成本人從未說過的話語。2023年的「AI陳珊妮」，就是AI仿人聲的最好例子。《天下雜誌》的語音機器人Sky則是用該公司影視總監李若梅的聲線訓練出來的。

現今市場上，已經有許多廠商推出簡易版語音生成式AI，使用者可以給定文案、語速、語調、甚至指定廠商預設的幾種聲線，AI便能生成幾可亂真的人聲。

想像上，這已經能夠讓個人用戶或小型出版社免去購入錄音設備、建置錄音室的前期成本，然而現實中，我們並沒有看到書市或讀者間出現大量的AI語音有聲書。是哪個環節卡住了呢？

➤首要憂慮：讀者能接受嗎？

檢視台灣現有的幾款串接大型語言模型的TTS產品（包括：文字MP3專業版、雅婷系列產品、AIspeakin），每款的轉換效率、時間都稱得上快速，也都支援多種聲線，斷句與標點符號的停頓都與真人朗讀相差無幾。如果有特殊斷句，也可以手動調整停頓、語速、語調。

➤試聽1：AIspeakin/Male-03/環球睿視

➤試聽2：文字MP3專業版/雲澤/網際智慧

➤試聽3：雅婷文字轉語音/家豪/台灣人工智慧實驗室

乍看／聽之下，能有一個工具快速將文字輸出成「準確」讀音、通順的句子，的確已具有商業價值。然而放到閱聽或娛樂需求上，對於已習慣多種感官刺激的消費者來說，他們能接受僅只是「準確」的聲音嗎？

想像「你做得真棒！」這句話，不同讀法會產生不同語意、不同情緒，背後代表的是不同的人物背景設定。這仰賴朗讀者理解文本後做出詮釋，也是語音生成式AI尚無法自動做到的。

目前書市上最知名的語音生成式AI，應是《天下雜誌》的語音朗讀機器人Sky。根據天下的統計，Sky上線後，該公司app的語音朗讀收聽量成長超過一倍、訂單量也增加三成。

然而這樣的成績，是天下雜誌公司與台灣人工智慧實驗室Taiwan AI Labs以專案形式合作半年，不斷訓練、調校的成果。目前一般的語音生成軟體定位偏向個人用戶，若單純使用這類產品，而沒有與廠商專案合作，恐怕難以達到如同Sky的效果。此外，Sky朗讀的新聞報導，本身並不需要在聲音上做過多的「表演」，但有聲書，尤其文學類作品對聲音的要求大不相同。

在採訪中，親子天下與鏡好聽都表示，公司內部曾針對投入AI語音進行評估，但始終無法取得具有共識的滿意成果。讀者很可能不買單，是出版社卡住的第一環節。

➤讓讀者滿意，目前得靠「工人」

將語音生成式AI應用在行銷案例上，即使對成果不滿意，可以反覆更改腳本、微調指令，要求AI重新生成。然而，當生成的任務是要將數萬字的書本內文轉換成人聲時，會出現多少AI誤判語氣或讀音的例子？需要花多少時間和成本去檢查（校對）和微調？

我們採訪了國內數家AI語音生成服務廠商，詢問他們如何解決這個問題。常見的做法不外乎：事先設定破音字或特殊用語讀法，以及人工標註語氣、語速、發言者等聲音元數據（Metadata）到腳本中。

這項人工標註的需求，帶來的問題是：使用語音生成技術雖然少掉了配音員和錄音室的成本，卻產生新的人工標註成本。當AI模型正確判讀聲音表現的能力越低，「工人智慧」的需求就越高。這樣一來，原有的問題並沒有被解決，只不過換了一個形式。

單純將文字轉成讀音精準的語音，以現在的有聲書消費者「耳」光來說是不夠的。Kobo內容長胡惠君分享她的觀察：「先不要說AI，就我們從自己平台觀察到的，賣很好的有聲書幾乎都是經過精心編輯的作品，而不是只將紙本書的文字拿去錄。這代表讀者聽得出來。」她認為即使朗讀者換成AI也一樣，聲音與內容有沒有經過調整、編輯成為品質夠好的產品，才是一本有聲書能否暢銷的根本。

這代表出版社即使應用語音生成式AI來產製有聲書，所需的工作也不只是將文稿輸入而已。編輯得像一名配音員一樣，思考適合的聲音詮釋，這又是全新的專業技能。

當然，隨著AI技術愈發進步，人工標註的需求會越來越少，廣泛應用於有聲書製作的可行性就會愈高。不過身為繁體中文使用者，還得面對另一個問題：目前大型語言模型的繁體中文語料仍非常稀少，以現有開源的LLM BLOOM為例，簡體中文的訓練資料占16.2%、繁體中文只占0.05%。這意味著，不僅AI分析中文文本的能力會遠遠落後於英文，臺灣使用者還必須微調基礎模型，才能避免兩岸用語的混淆。這是臺灣出版界要應用語音生成AI於有聲書製作時，不得不面對及跨越的技術門檻。

➤方法終究是嘗試出來的

受限於前面討論的現狀，臺灣目前還沒有出版社利用AI來錄製有聲書。不過，已能用來播報新聞、朗讀文章的Sky，代表操作選單或導航系統等功能性TTS，已經可以勝任非虛構知識性文章的朗讀，在使用情境上是大大的拓展。

下一步，若要往大規模有聲書製作發展，可以從這裡借鏡。

前面提過，傳統有聲書的製作分為不同規格。工具類或知識性的非文學類書籍，可以由同一人從頭到尾念完，且表演成分較低。小說等文學類書籍，則不只聲音表演的難度較高，還可能需要多人參與演出。而更高規格——親子天下稱之為「劇場版」有聲書——還可能需要加入音效等聲音後製。

不難想像，從朗讀新聞報導到朗讀非文學類書籍，使用情境十分接近，目前的有聲書也以非文學書籍最多。從熱銷排行來看，非文學書更是占絕大多數。現階段看來，與其期待以生成式AI取代精緻的真人有聲書，利用AI大量生產表演技巧要求較低的非文學類有聲書，是更為務實且具體可行的選項。AI有聲書相對低成本、高產量且品質穩定，作為入門的產品，可以吸引更多讀者加入有聲書的聆聽行列。

Readmoo讀墨執行長龐文真對此即抱持樂觀態度：「有工具幫忙把一大段文章轉成近似真人的語音，加上完整的線上服務，這對出版社就滿有用了。」

對於高標準的讀者而言，AI什麼時候才能妥善詮釋文本中的情緒呢？環球睿視創辦人蘇育民與網際智慧公司總經理晁旭光都認為，這只是時間問題。學會讀音、停頓、句子裡的聲音起伏後，辨別文字裡的語氣與情緒，是接下來大型語言模型要學習的目標。

晁旭光表示：「未來如果在做訓練的時候，把各種不同的情緒、語調搭配進去，AI生成語音也比較能表達出不同的情緒，這是慢慢能夠做出來的。」

這個「慢」會有多快？目前尚無法定論。2023年11月，Amazon已經開始測試利用AI朗讀有聲書的技術，提供書籍作者將文字書轉為有聲書出版的服務。全球企業龍頭的投入，意味著利用AI技術來加速有聲書製作，已經從未來式悄悄變為現在進行式。各種更加貼近真人聲音的嘗試，可預期的將漸漸到位。

雖然利用AI降低有聲書製作成本只是時間問題，不過，在AI技術尚未普及的年代，外國有聲書市場便已蓬勃發展。一旦技術到位，有聲書的量產更加便利時，臺灣有聲書市場，是否已做好準備？●（原文於2024-01-03在Openbook官網首度刊載）

CC BY-NC-ND 4.0 授权

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

Openbook閱讀誌臺灣非營利專業書評媒體。Openbook編輯部將提供原生報導，文化觀察，人物採訪與國內外重大出版消息。 https://linktr.ee/openbooktaiwan

来自作者
相关推荐