從錄音到文字:Gemini 幫你搞定逐字稿

我們可以透過 Google AI Studio 上傳錄音檔,並利用其強大的模型將語音內容準確轉錄為逐字稿。不論是對話、會議記錄、訪談,還是課堂筆記,都能快速生成文字,且支援多語言與時間戳記功能,大幅提升工作效率。本篇文章將帶您一步步了解如何在 Google AI Studio 中選擇適合的模型、進行設定,以及撰寫提示詞,讓模型辨識不同說話者並生成帶有時間戳的逐字稿。

在以自己的 Google 帳號登入 Google AI Studio 後,使用者要先點選 “Create Prompt”,以創建任務。然後上傳錄音檔。接著,就是要選擇模型 (Model) 。

一、選擇模型

Google AI Studio 有許多模型 (Model) ,可以選擇。那應該選擇哪一個呢?

應該要選擇有足夠的 token數可供使用的模型。不然,短短的15分鐘錄音檔,可能就無法轉錄成逐字稿。其次,模型在生成逐字稿時所標記的時間戳,也要與實際播放錄音檔的時間點位置相符。而且,也要能辨識出不同的說話者或發生聲音者。

基於以上考量與測試,在2025年1月的時間點,我認為 “Gemini Experimental 1206” 的模型,最適合用來將錄音檔轉錄為逐字稿。tokens數非常足夠,達到200萬;在生成的逐字稿上所標記的時間戳,也符合錄音檔聲音的位置;還可以辨識不同的說話者。至於,其他的模型,或是雖然時間戳標記正確,但 tokens 數太少(例如 “Gemini 2.0 Flash Thinking Experimental”);或是時間戳標記嚴重偏離實際值(所有其他的模型),都不適合用來將錄音檔轉錄為逐字稿。

二、其他設定

在 Google AI Studio 的設定區域,還有其他設定選項可供選擇。使用者可以檢視這些選項,自行研究與決定是否需要加以調整。

此外,設定區域有 “Temperature”(溫度)與 “Top P” (Top Probability) 的選項,可以調整參數。一般情況下,可維持預設值不變。基於這兩項是大語言模型生成文字的隨機性調整工具,數值越高,越有隨機性或多樣性;數值越低,越有確定性。而我們的用途,是使用大語言模型聽取錄音檔的文字以生成逐字稿。所以,將這兩項參數調低至0.3左右,可使生成的逐字稿內容較為一致,避免隨機性過高導致錯誤。

三、提示詞

如何下提示詞 (prompt),才能讓 Gemini 將錄音檔的聲音,生成有時間戳記的逐字稿,而且要能分辨出不同的說話者呢?

經測試後,我建議使用的提示詞如下:

請將我上傳的錄音檔,轉錄成文字稿
- 辨識錄音中的每位說話者並標記為「說話者 A」、「說話者 B」等。
- 將每位說話者的對話內容轉錄為逐字稿,並在每段對話前加上時間戳。
以下是輸出格式範例:
[00:01] 說話者A:你好,今天我們討論的是人工智慧的發展。
[00:05] 說話者B:是的,我認為這是一個非常有趣的主題。

成果如下圖:

如果,你已經知道「說話者A」是張三、「說話者 B」是李四。可以使用如下的提示詞:

請將我上傳的錄音檔,轉錄成文字稿
- 辨識錄音中的每位說話者,第一位說話者是 "張三"、第二位說話者是 "李四"。
- 將每位說話者的對話內容轉錄為逐字稿,並在每段對話前加上時間戳。
以下是輸出格式範例:
[00:01] 說話者A:你好,今天我們討論的是人工智慧的發展。
[00:05] 說話者B:是的,我認為這是一個非常有趣的主題。

四、校對

在 Gemini 聽取錄音檔並生成逐字稿後,難免會有生成錯誤的同音字的情形,或是因為同時說話而有將說話者辨識錯誤的情形。所以,必須予以校對,以修正錯誤。

在 Google AI Studio 的介面上,是可以直接播放我們上傳的錄音檔。如上圖所示,介面上會顯示我們上傳的錄音檔、時間長度及播放鍵;將滑鼠移到 Gemini 生成逐字稿的對話框,會出現Edit(修改)的圖示,點擊 “Edit”,就可以逐一修改錯誤的文字。所以,使用者在介面上是可以邊聽邊校對修改文字。

如果,一份逐字稿有許多相同的同音字錯誤。例如,上圖逐字稿有顯示「年中」,但實際上應該是「年終」。使用者可以選擇在將逐字稿全部文字複製到文字檔後再一次以正確的字詞取代錯誤的字詞;也可以再次輸入提示詞,要求 Gemini 修改而生成新的逐字稿。例如,可以輸入下列提示詞:

修正前一篇逐字稿的文字:
將 "年中" 改為 "年終"。

五、結論

在實際使用後,我認為 Google AI Studio 的 “Gemini Experimental 1206” 模型,在將錄音檔轉錄成逐字稿的用途上,速度快,而且有相當不錯的準確性。在錄音檔中,說話者即使夾雜一些英文,也能辨識出來。這為錄音轉逐字稿帶來了極大的便利性與效率提升。其免費使用的特性,加上直觀的操作介面,讓用戶只需登入 Google 帳號即可快速上手。模型支援多語言轉錄、時間戳記,以及自動辨識多位說話者,這些功能大幅減少了人工聽打的時間成本,讓工作流程更加高效。

雖然生成的逐字稿仍然需要人工校對以確保準確性,但 Gemini 已經是目前市場上功能強大且實用的免費工具之一。對於需要處理會議記錄、訪談或課堂筆記的人來說,它無疑是一個值得嘗試的解決方案。

分類: AI 標籤:

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料