發佈時間: 2025-2-19 最近更新: 2025-11-1字數 412閱讀時間 2 分鐘

type
status
date
slug
summary
tags
category
icon
password
💡
影音轉逐字稿功能,實作平台玩看看

需求分析

  • 使用者輸入音訊、影片或以麥克風錄音,可以轉錄成逐字稿
  • 可選用不同模型
  • 可選用輸入領域專有名詞、提示詞以提高轉錄精準度
  • 可自定義輸出檔名/無設定則以「原影音檔名_transcription」作預設檔名
  • 輸出格式提供常見文字檔的 txt 、 Markdown 的 md 、字幕檔的 srt 、 Word 的 docx 等檔案格式
  • 提供逐字稿轉錄結果預覽區
  • 逐字稿可選用導出時是否含有時間軸

設計與實作技術

詢問AI實作可能性,選以 python 、 gradio 、 OpenAI之Whisper 模型進行實作

開發問題筆記

  • 留意套件之間版本號是否相容
  • 模型檔案頗大,為免造成電腦負擔,故先在 colab 寫 python 串 OpenAI ,用 FTP 方式下載至遠端 NAS 空間暫放
  • 麥克風錄音的波形轉譯花費不少時間研究
  • 預估轉譯時間只能供參考,並不固定
  • 考量 UX 所增加之功能:增設模型預估參考表、耗時倒數、常用文字檔案格式、自定義檔名

測試結果

試以音檔放入系統後進行使用。

使用介面

notion image

輸出檔案結果

notion image

部署於Hugging Face使用

  • 本工具為個人使用,暫不公開
notion image

贊助支持鼓勵

如果這篇文章對你有所幫助或解惑,歡迎您賞我一杯啤酒🍻
 
 
Loading...
個人電子書圖書館平台 with Synology NAS & BicBucStriim

個人電子書圖書館平台 with Synology NAS & BicBucStriim

利用NAS、Calibre、BicBucStriim等可架站一電子書圖書館,方便於網頁造訪瀏覽及下載書籍


小程式大學問:文件側視拉皮轉正

小程式大學問:文件側視拉皮轉正

使用者於平台輸入側面圖片,可以拉正為正面視圖再輸出