Options tutorial series is live — start here

設定指南

把 Aloud 跑起來

Aloud 自己不帶語音辨識,靠你的火山引擎帳號呼叫豆包流式 ASR。三步:開通服務拿憑證、給系統權限、(可選)設術語詞庫。第一步不做這工具完全不工作。

第一步 · 必做

開通火山豆包,拿 AppID / Access Token

  1. 登入 火山引擎控制台,搜尋「豆包語音」或進入「智能語音」。
  2. 建立一個應用(Application),開通 語音辨識大模型 服務。注意是「大模型 / 流式語音辨識 2.0」,不是舊的小模型版——Aloud 用的是 2.0,開錯了辨識會報 403。
  3. 在應用詳情頁拿到兩個值:AppIDAccess Token
  4. 打開 Aloud 選單列圖示 → Voice Engine Settings…,在「豆包流式語音識別(必填)」分塊把這兩個值填進 App IDAccess Token,按 Save
  5. 填完按一次 Fn 說句話試試。出字就成了。

報 403 / 未開通怎麼辦

錯誤訊息常寫「服務未開通」,但真實原因多半是開通的是小模型版而不是大模型流式 2.0。回控制台確認開通的服務是「語音辨識大模型」,等幾分鐘生效後再試。憑證本身錯只會鑑權失敗,不會報 403。

第二步 · 必做

系統權限

Aloud 未簽章,且要監聽 Fn 鍵、往別的應用注入文字、用麥克風錄音,三項權限缺一就不工作。

  • 首次開啟:雙擊會被攔。右鍵點 Aloud.app → 選「打開」→ 再「打開」一次;或去 系統設定 → 隱私權與安全性,下面會有一行「仍要打開」。
  • 麥克風系統設定 → 隱私權與安全性 → 麥克風,打開 Aloud。
  • 輔助使用系統設定 → 隱私權與安全性 → 輔助使用,打開 Aloud。監聽 Fn 鍵和把文字注入當前輸入框都靠它,不給這個按 Fn 沒反應。

改完權限重啟一次 Aloud 最穩。

第三步 · 可選

術語詞庫

技術詞、人名、產品名容易被聽成同音字。術語詞庫在辨識前就把這些詞餵給豆包,比辨識後讓 LLM 猜更準,也沒那幾秒延遲。

  • Voice Engine Settings… → 「術語詞庫」的「熱詞」框,每行一個詞,比如 KubernetesPydantic冪等、你常念的人名專案名。
  • 上限約 100 條,超出的自動截掉。挑最容易被聽錯的高頻詞,不要堆。
  • 純本機存,辨識時直傳豆包,不上傳到雲端詞表、不經第三方。
  • 它和 LLM 糾錯是兩層:詞庫管辨識前(更準、無延遲),LLM 管辨識後兜底(改明顯口誤)。兩個都開效果最好,也可只用詞庫關掉 LLM。

還沒下載?回 Aloud 下載頁。出問題發 [email protected]