面對網路上、特別是短影音界盛行的中國口音 AI 配音,很多台灣人可能認為當務之急是趕緊在市場上補充一兩個「台灣口音」的選項。但是,晁旭光所領導的團隊有更遠大的企圖心。
「台灣口音這件事情,其他廠商也許都覺得做兩個聲音就好;但是,我覺得我們如果要做,目標好歹就是一次一百個聲音以上。」提及自家 AI 文字轉語音產品的背後構想,網際智慧公司的執行長晁旭光這樣回顧。
網際智慧公司在 2024 年公開最新品牌「台灣絕好聲創」,開發超擬真的台灣口音 AI 語音。產品才剛上線一年,「一百個聲音」的目標便達成過半,上架的聲優總數已經來到五十餘位。點開「絕好聲創」的產品官網即可發現,網頁上列出了一位又一位虛擬聲優的角色設定,比如 48 歲的男性政治評論員豪哥,或者 30 歲的女性心理師渝函,乃至 6 歲的小女孩品妍,各自都有範例音檔,清楚展示各自不同的語調、咬字以及聲線。
「兩個聲音」和「一百個聲音」的差異已經不單只是數量多寡而已,而是在產品構思上的根本差異:只有一兩種台灣口音是不夠的,打從一開始,團隊就希望能夠打造出多樣的 AI 聲優,以切合台灣創作者各種不同的使用情境與需求。
對此,晁旭光將聲音類比為字體,設計的目標讓使用者可以針對不同需求選擇適當的表現方式。「我會認為聲音就會像字體一樣,慢慢隨著時間的發展,就要有各種不同類型的字體,配合各種不同的情境需求」,他解釋,「而聲音更是這樣,不應該只是一個這個正正經經、如同念新聞這樣子的讀稿方式。理論上應該是我們正常人在做情感表達,會有很多、很多種不同的聲音。」如此一來,屬於台灣人的聲音表達就可以應用在不同的情境,各種不同屬性的 podcast、影片、課程、有聲書之上。
一同受訪的產品經理林幼婕進一步舉例,聲優甚至還可以區分為兩類。在網頁上,「如果顯示『演繹聲線』,那個就是配音員演的聲音。也有『真實聲線』,那是真的小朋友的。那真實聲線的小朋友聲音,你聽了就會很有感覺,可以出現這個五歲小朋友的聲音,那講話還那個口齒不清的。」
「這個也算是我們一個很大的特色,因為現在市場上絕對找不到。」

「台北 101」怎麼念?用台灣需求做出「差異化」
市場上之所以很難找到類似的產品,一大主因在於這個計畫所需投入的資源。晁旭光解釋,從語料的蒐集和標註,再到演算法的設計,乃至模型的訓練和測試、驗證,團隊都必須自己下苦功處理。
被問及產品開發過程中遇到的困難時,晁旭光立即舉出的案例是數字的念法。「今天我在講講股票代號,跟我在講公車,或者是我是在玩遊戲,這些數字可能分別代表不同的概念,念法可能也會不一樣。像這種,我們就會花很多力氣,針對模型搭配的演算法去做很多的處理。」林幼婕也接著補充另一個具體案例:「台北 101,為什麼不念台北一百零一?」,這樣一個又一個林林總總的個案,台灣的團隊都必須投入時間、人力予以修正。
有些時候,讀音甚至沒有標準答案,而是必須依照情境做出不同的判斷與選擇。
比如,「寶寶」的第二個字是否要按照字典的標註方式念輕聲?還是要依照台灣人一般習慣的讀音,念作類似「寶包」?林幼婕解釋,這就要依客戶的需求決定。「輕聲的部分,比如說他是教科書的產業,他可能會是會依照教育部的方式去讀。所以我們也遇到有一些客戶可能會,希望說我們是這樣子讀。但是我們主要的目標,是希望是可以比較貼近一般人的發音的方式,所以我們大部分的 AI 聲優還是會念『寶包』,我們會想辦法讓他變成『寶包』。」
光是修正與處理的功夫就必須如此細膩,這些在在都是成本。但在晁旭光看來,投入這些成本是有意義的:正是因為資源有限,所以更必須用於發展出自己的特色、自己的優勢。
畢竟,團隊所面臨的是來自中國、乃至來自其他國家的競爭。「中國大陸有幾個優勢,而首先就是資料的優勢。因為這個市場中,能具有最多優勢、能夠做好的不外乎幾個『獨角獸』」,晁旭光分析,「比如說字節跳動,就能用抖音這種大量的數據,之後的訓練也有足夠可參考的 data,這些『獨角獸』,或者比如 Google,他們其實都相對有這樣的優勢」。
在這樣的前提下,台灣本土的小型團隊,要能夠在競爭當中存活下來,就必須另尋出路。畢竟,「我們如果說是去跟其他的競爭對手競爭的話,我們可能在比較廣泛的市場領域、比較大的市場是沒有優勢的。」
「我們勢必就是要做差異化」,晁旭光總結。在此,重點又再度回到找出自己獨特的地方,回應台灣不同消費族群的需求──所以,團隊才更投入於貼近台灣人自然的說話方式,並且,還要做出如同不同字體般適合各種情境的「一百個聲音」。
資源有限、國際競爭,關鍵仍在於思考台灣應用情境
而當被問到台灣 AI 整體的發展、特別是針對大型語言模型(LLM)的開發時,晁旭光的建議也呼應了相同的原則:在資源有限之下,尤其面對中國競爭對手挾著豐沛的資源來襲,政府和企業都必須更聚焦於台灣自己的需求是什麼,做出符合本土需求的差異化。
事實上,依據晁旭光分析,台灣過去幾次大型語言模型的開發計劃經常「不了了之」,一大主因也在於每次的建立與更新都得耗費太多資源。「因為它是大模型,所以它的那種模型是更大的 size,它要耗的 GPU 其實也是高的。」但投入這些資源,卻未必能夠獲得更適合且更有競爭力的結果。
當然,資源有限的問題並不只困擾台灣的團隊。也因此,整個 AI 業界的趨勢也都已經往不同方向前進,縮小專攻的範圍。「隨著時間發展,現在慢慢在訓練的模型,開始都走向『蒸餾』,像是 deepseek 的概念在做,」晁旭光解釋,「蒸餾會讓模型變小、速度變快,它只要能搭配比較精緻的訓練語料,就可以做到相當的程度」。
而這種「精緻的訓練語料」,又必須由台灣的團隊自己投資。「我覺得到最後,問題核心有很多都是在資料上面。那只是說,現在有很多 AI,它資料是網路上爬。而像全球中文資料大部分都來自中國大陸,便利性太高」,晁旭光分析。因此,面對海量的中國資料,建立起符合台灣使用情境的資料集就成為關鍵。
「在談主權 AI 的時候,其實很可能很重要的,是建立台灣經過 verify(按:驗證)的資料集。那些資料集反而就可以應用在 OpenAI 或者是其他的開源模型,以各種不同的開源模型為基礎,再上去做 fine tune(按:精修),這搞不好也是另外一個思路。」
而要建立這些資料集時,不同團隊更是可以分工合作。誠然,「要一個台灣大模型去 cover 比如說法律、醫療加上各行各業什麼都有,我覺得那個難度就會比較高」,晁旭光提醒。但是,這樣包山包海的模型,或許也不是台灣社會最需要達成的。
相反地,晁旭光更期待的是分開處理不同需求:「假設現在台灣已經有的訓練資料集都持續保留,而且甚至把它調整得更好,未來做臺灣的主權 AI 模型的難度,應該就會慢慢降低。」延續台灣絕好聲創的開發經驗,晁旭光最終依然將重點放在思考屬於台灣的應用情境,在有限的資源之下,發展出更為細緻、更具差異性的產品,以更切合台灣社會內部多樣的使用需求。
文字/謝達文
編輯/鄭伃倢
Discover more from 影響力編輯室
Subscribe to get the latest posts sent to your email.
