type
status
date
slug
summary
tags
category
icon
password
影音轉逐字稿功能,實作平台玩看看
需求分析
- 使用者輸入音訊、影片或以麥克風錄音,可以轉錄成逐字稿
- 可選用不同模型
- 可選用輸入領域專有名詞、提示詞以提高轉錄精準度
- 可自定義輸出檔名/無設定則以「原影音檔名_transcription」作預設檔名
- 輸出格式提供常見文字檔的txt、Markdown的md、字幕檔的srt、Word的docx等檔案格式
- 提供逐字稿轉錄結果預覽區
- 逐字稿可選用導出時是否含有時間軸
設計與實作技術
詢問AI實作可能性,選以python、gradio、OpenAI之Whisper模型進行實作
開發問題筆記
- 留意套件之間版本號是否相容
- 模型檔案頗大,為免造成電腦負擔,故先在colab寫python串OpenAI,用FTP方式下載至遠端NAS空間暫放
- 麥克風錄音的波形轉譯花費不少時間研究
- 預估轉譯時間只能供參考,並不固定
- 考量UX所增加之功能:增設模型預估參考表、耗時倒數、常用文字檔案格式、自定義檔名
測試結果
試以音檔放入系統後進行使用。
使用介面

輸出檔案結果

部署於Hugging Face使用
- 本工具為個人使用,暫不公開
