設定指南

把 Aloud 跑起來

Aloud 自己不帶語音辨識，靠你的火山引擎帳號呼叫豆包流式 ASR。三步：開通服務拿憑證、給系統權限、（可選）設術語詞庫。第一步不做這工具完全不工作。

第一步 · 必做

開通火山豆包，拿 AppID / Access Token

登入火山引擎控制台，搜尋「豆包語音」或進入「智能語音」。
建立一個應用（Application），開通 語音辨識大模型 服務。注意是「大模型 / 流式語音辨識 2.0」，不是舊的小模型版——Aloud 用的是 2.0，開錯了辨識會報 403。
在應用詳情頁拿到兩個值：AppID 和 Access Token。
打開 Aloud 選單列圖示 → Voice Engine Settings…，在「豆包流式語音識別（必填）」分塊把這兩個值填進 App ID 和 Access Token，按 Save。
填完按一次 Fn 說句話試試。出字就成了。

報 403 / 未開通怎麼辦

錯誤訊息常寫「服務未開通」，但真實原因多半是開通的是小模型版而不是大模型流式 2.0。回控制台確認開通的服務是「語音辨識大模型」，等幾分鐘生效後再試。憑證本身錯只會鑑權失敗，不會報 403。

第二步 · 必做

Aloud 未簽章，且要監聽 Fn 鍵、往別的應用注入文字、用麥克風錄音，三項權限缺一就不工作。

首次開啟：雙擊會被攔。右鍵點 Aloud.app → 選「打開」→ 再「打開」一次；或去 系統設定 → 隱私權與安全性，下面會有一行「仍要打開」。
麥克風：系統設定 → 隱私權與安全性 → 麥克風，打開 Aloud。
輔助使用：系統設定 → 隱私權與安全性 → 輔助使用，打開 Aloud。監聽 Fn 鍵和把文字注入當前輸入框都靠它，不給這個按 Fn 沒反應。

改完權限重啟一次 Aloud 最穩。

第三步 · 可選

技術詞、人名、產品名容易被聽成同音字。術語詞庫在辨識前就把這些詞餵給豆包，比辨識後讓 LLM 猜更準，也沒那幾秒延遲。

Voice Engine Settings… → 「術語詞庫」的「熱詞」框，每行一個詞，比如 Kubernetes、Pydantic、冪等、你常念的人名專案名。
上限約 100 條，超出的自動截掉。挑最容易被聽錯的高頻詞，不要堆。
純本機存，辨識時直傳豆包，不上傳到雲端詞表、不經第三方。
它和 LLM 糾錯是兩層：詞庫管辨識前（更準、無延遲），LLM 管辨識後兜底（改明顯口誤）。兩個都開效果最好，也可只用詞庫關掉 LLM。