type
status
date
slug
summary
tags
category
icon
password
影音轉逐字稿功能,實作平台玩看看
需求分析
- 使用者輸入音訊、影片或以麥克風錄音,可以轉錄成逐字稿
- 可選用不同模型
- 可選用輸入領域專有名詞、提示詞以提高轉錄精準度
- 可自定義輸出檔名/無設定則以「原影音檔名_transcription」作預設檔名
- 輸出格式提供常見文字檔的 txt 、 Markdown 的 md 、字幕檔的 srt 、 Word 的 docx 等檔案格式
- 提供逐字稿轉錄結果預覽區
- 逐字稿可選用導出時是否含有時間軸
設計與實作技術
詢問AI實作可能性,選以 python 、 gradio 、 OpenAI之Whisper 模型進行實作
開發問題筆記
- 留意套件之間版本號是否相容
- 模型檔案頗大,為免造成電腦負擔,故先在 colab 寫 python 串 OpenAI ,用 FTP 方式下載至遠端 NAS 空間暫放
- 麥克風錄音的波形轉譯花費不少時間研究
- 預估轉譯時間只能供參考,並不固定
- 考量 UX 所增加之功能:增設模型預估參考表、耗時倒數、常用文字檔案格式、自定義檔名
測試結果
試以音檔放入系統後進行使用。
使用介面

輸出檔案結果

部署於Hugging Face使用
- 本工具為個人使用,暫不公開

贊助支持鼓勵
如果這篇文章對你有所幫助或解惑,歡迎您賞我一杯啤酒🍻



