• About & Contact
Sunday, January 25, 2026
  • Login
No Result
View All Result
影響力編輯室
  • 專題|進擊的台漫
  • 專題|人權繪本
  • 智庫文章
  • 專題|進擊的台漫
  • 專題|人權繪本
  • 智庫文章
No Result
View All Result
影響力編輯室
No Result
View All Result
Home 專題 專題|主權 AI

傳遞屬於台灣的聲音:專訪《VoAI 絕好聲創》團隊

in 專題|主權 AI
Reading Time: 2 mins read
0

面對網路上、特別是短影音界盛行的中國口音 AI 配音,很多台灣人可能認為當務之急是趕緊在市場上補充一兩個「台灣口音」的選項。但是,晁旭光所領導的團隊有更遠大的企圖心。

「台灣口音這件事情,其他廠商也許都覺得做兩個聲音就好;但是,我覺得我們如果要做,目標好歹就是一次一百個聲音以上。」提及自家 AI 文字轉語音產品的背後構想,網際智慧公司的執行長晁旭光這樣回顧。

網際智慧公司在 2024 年公開最新品牌「台灣絕好聲創」,開發超擬真的台灣口音 AI 語音。產品才剛上線一年,「一百個聲音」的目標便達成過半,上架的聲優總數已經來到五十餘位。點開「絕好聲創」的產品官網即可發現,網頁上列出了一位又一位虛擬聲優的角色設定,比如 48 歲的男性政治評論員豪哥,或者 30 歲的女性心理師渝函,乃至 6 歲的小女孩品妍,各自都有範例音檔,清楚展示各自不同的語調、咬字以及聲線。

「兩個聲音」和「一百個聲音」的差異已經不單只是數量多寡而已,而是在產品構思上的根本差異:只有一兩種台灣口音是不夠的,打從一開始,團隊就希望能夠打造出多樣的 AI 聲優,以切合台灣創作者各種不同的使用情境與需求。

對此,晁旭光將聲音類比為字體,設計的目標讓使用者可以針對不同需求選擇適當的表現方式。「我會認為聲音就會像字體一樣,慢慢隨著時間的發展,就要有各種不同類型的字體,配合各種不同的情境需求」,他解釋,「而聲音更是這樣,不應該只是一個這個正正經經、如同念新聞這樣子的讀稿方式。理論上應該是我們正常人在做情感表達,會有很多、很多種不同的聲音。」如此一來,屬於台灣人的聲音表達就可以應用在不同的情境,各種不同屬性的 podcast、影片、課程、有聲書之上。

一同受訪的產品經理林幼婕進一步舉例,聲優甚至還可以區分為兩類。在網頁上,「如果顯示『演繹聲線』,那個就是配音員演的聲音。也有『真實聲線』,那是真的小朋友的。那真實聲線的小朋友聲音,你聽了就會很有感覺,可以出現這個五歲小朋友的聲音,那講話還那個口齒不清的。」

「這個也算是我們一個很大的特色,因為現在市場上絕對找不到。」

截圖自/絕好聲創官網

「台北 101」怎麼念?用台灣需求做出「差異化」

市場上之所以很難找到類似的產品,一大主因在於這個計畫所需投入的資源。晁旭光解釋,從語料的蒐集和標註,再到演算法的設計,乃至模型的訓練和測試、驗證,團隊都必須自己下苦功處理。

被問及產品開發過程中遇到的困難時,晁旭光立即舉出的案例是數字的念法。「今天我在講講股票代號,跟我在講公車,或者是我是在玩遊戲,這些數字可能分別代表不同的概念,念法可能也會不一樣。像這種,我們就會花很多力氣,針對模型搭配的演算法去做很多的處理。」林幼婕也接著補充另一個具體案例:「台北 101,為什麼不念台北一百零一?」,這樣一個又一個林林總總的個案,台灣的團隊都必須投入時間、人力予以修正。

有些時候,讀音甚至沒有標準答案,而是必須依照情境做出不同的判斷與選擇。

比如,「寶寶」的第二個字是否要按照字典的標註方式念輕聲?還是要依照台灣人一般習慣的讀音,念作類似「寶包」?林幼婕解釋,這就要依客戶的需求決定。「輕聲的部分,比如說他是教科書的產業,他可能會是會依照教育部的方式去讀。所以我們也遇到有一些客戶可能會,希望說我們是這樣子讀。但是我們主要的目標,是希望是可以比較貼近一般人的發音的方式,所以我們大部分的 AI 聲優還是會念『寶包』,我們會想辦法讓他變成『寶包』。」 

光是修正與處理的功夫就必須如此細膩,這些在在都是成本。但在晁旭光看來,投入這些成本是有意義的:正是因為資源有限,所以更必須用於發展出自己的特色、自己的優勢。

畢竟,團隊所面臨的是來自中國、乃至來自其他國家的競爭。「中國大陸有幾個優勢,而首先就是資料的優勢。因為這個市場中,能具有最多優勢、能夠做好的不外乎幾個『獨角獸』」,晁旭光分析,「比如說字節跳動,就能用抖音這種大量的數據,之後的訓練也有足夠可參考的 data,這些『獨角獸』,或者比如 Google,他們其實都相對有這樣的優勢」。

在這樣的前提下,台灣本土的小型團隊,要能夠在競爭當中存活下來,就必須另尋出路。畢竟,「我們如果說是去跟其他的競爭對手競爭的話,我們可能在比較廣泛的市場領域、比較大的市場是沒有優勢的。」

「我們勢必就是要做差異化」,晁旭光總結。在此,重點又再度回到找出自己獨特的地方,回應台灣不同消費族群的需求──所以,團隊才更投入於貼近台灣人自然的說話方式,並且,還要做出如同不同字體般適合各種情境的「一百個聲音」。

資源有限、國際競爭,關鍵仍在於思考台灣應用情境

而當被問到台灣 AI 整體的發展、特別是針對大型語言模型(LLM)的開發時,晁旭光的建議也呼應了相同的原則:在資源有限之下,尤其面對中國競爭對手挾著豐沛的資源來襲,政府和企業都必須更聚焦於台灣自己的需求是什麼,做出符合本土需求的差異化。

事實上,依據晁旭光分析,台灣過去幾次大型語言模型的開發計劃經常「不了了之」,一大主因也在於每次的建立與更新都得耗費太多資源。「因為它是大模型,所以它的那種模型是更大的 size,它要耗的 GPU 其實也是高的。」但投入這些資源,卻未必能夠獲得更適合且更有競爭力的結果。

當然,資源有限的問題並不只困擾台灣的團隊。也因此,整個 AI 業界的趨勢也都已經往不同方向前進,縮小專攻的範圍。「隨著時間發展,現在慢慢在訓練的模型,開始都走向『蒸餾』,像是 deepseek 的概念在做,」晁旭光解釋,「蒸餾會讓模型變小、速度變快,它只要能搭配比較精緻的訓練語料,就可以做到相當的程度」。

而這種「精緻的訓練語料」,又必須由台灣的團隊自己投資。「我覺得到最後,問題核心有很多都是在資料上面。那只是說,現在有很多 AI,它資料是網路上爬。而像全球中文資料大部分都來自中國大陸,便利性太高」,晁旭光分析。因此,面對海量的中國資料,建立起符合台灣使用情境的資料集就成為關鍵。

「在談主權 AI 的時候,其實很可能很重要的,是建立台灣經過 verify(按:驗證)的資料集。那些資料集反而就可以應用在 OpenAI 或者是其他的開源模型,以各種不同的開源模型為基礎,再上去做 fine tune(按:精修),這搞不好也是另外一個思路。」

而要建立這些資料集時,不同團隊更是可以分工合作。誠然,「要一個台灣大模型去 cover 比如說法律、醫療加上各行各業什麼都有,我覺得那個難度就會比較高」,晁旭光提醒。但是,這樣包山包海的模型,或許也不是台灣社會最需要達成的。

相反地,晁旭光更期待的是分開處理不同需求:「假設現在台灣已經有的訓練資料集都持續保留,而且甚至把它調整得更好,未來做臺灣的主權 AI 模型的難度,應該就會慢慢降低。」延續台灣絕好聲創的開發經驗,晁旭光最終依然將重點放在思考屬於台灣的應用情境,在有限的資源之下,發展出更為細緻、更具差異性的產品,以更切合台灣社會內部多樣的使用需求。

文字/謝達文
編輯/鄭伃倢

Share this:

  • Twitter
  • Facebook

Like this:

Like Loading...

相關


Discover more from 影響力編輯室

Subscribe to get the latest posts sent to your email.

ShareTweet

Leave a ReplyCancel reply

  • About & Contact

© 2025 影響力編輯室

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • 專題|人權繪本

© 2025 影響力編輯室

 

Loading Comments...
 

    %d