小程式大學問：音訊/影片轉錄成逐字稿 | TY Lin’s Portfolio

TY Lin’s Portfolio

發佈時間: 2025-2-19 最近更新: 2025-11-1字數 412閱讀時間≈ 2 分鐘

type

status

date

slug

summary

tags

category

icon

password

💡

影音轉逐字稿功能，實作平台玩看看

需求分析

使用者輸入音訊、影片或以麥克風錄音，可以轉錄成逐字稿

可選用不同模型

可選用輸入領域專有名詞、提示詞以提高轉錄精準度

可自定義輸出檔名/無設定則以「原影音檔名_transcription」作預設檔名

輸出格式提供常見文字檔的 txt 、 Markdown 的 md 、字幕檔的 srt 、 Word 的 docx 等檔案格式

提供逐字稿轉錄結果預覽區

逐字稿可選用導出時是否含有時間軸

設計與實作技術

詢問AI實作可能性，選以 python 、 gradio 、 OpenAI之Whisper 模型進行實作

開發問題筆記

留意套件之間版本號是否相容

模型檔案頗大，為免造成電腦負擔，故先在 colab 寫 python 串 OpenAI ，用 FTP 方式下載至遠端 NAS 空間暫放

麥克風錄音的波形轉譯花費不少時間研究

預估轉譯時間只能供參考，並不固定

考量 UX 所增加之功能：增設模型預估參考表、耗時倒數、常用文字檔案格式、自定義檔名

測試結果

試以音檔放入系統後進行使用。

使用介面

notion image

輸出檔案結果

notion image

部署於Hugging Face使用

本工具為個人使用，暫不公開

notion image

贊助支持鼓勵

如果這篇文章對你有所幫助或解惑，歡迎您賞我一杯啤酒🍻

支持TY.Lin | Portaly

小小創作者，歡迎大家支持鼓勵！

支持TY.Lin | Portaly

https://portaly.cc/tylin23/support

支持TY.Lin | Portaly

Loading...

個人電子書圖書館平台 with Synology NAS & BicBucStriim

利用NAS、Calibre、BicBucStriim等可架站一電子書圖書館，方便於網頁造訪瀏覽及下載書籍

小程式大學問：文件側視拉皮轉正

使用者於平台輸入側面圖片，可以拉正為正面視圖再輸出

目錄

0%