發佈時間: 2025-2-19 最近更新: 2025-4-25字數 385閱讀時間 1 分鐘

type
status
date
slug
summary
tags
category
icon
password
💡
影音轉逐字稿功能,實作平台玩看看

需求分析

  • 使用者輸入音訊、影片或以麥克風錄音,可以轉錄成逐字稿
  • 可選用不同模型
  • 可選用輸入領域專有名詞、提示詞以提高轉錄精準度
  • 可自定義輸出檔名/無設定則以「原影音檔名_transcription」作預設檔名
  • 輸出格式提供常見文字檔的txt、Markdown的md、字幕檔的srt、Word的docx等檔案格式
  • 提供逐字稿轉錄結果預覽區
  • 逐字稿可選用導出時是否含有時間軸

設計與實作技術

詢問AI實作可能性,選以python、gradio、OpenAI之Whisper模型進行實作

開發問題筆記

  • 留意套件之間版本號是否相容
  • 模型檔案頗大,為免造成電腦負擔,故先在colab寫python串OpenAI,用FTP方式下載至遠端NAS空間暫放
  • 麥克風錄音的波形轉譯花費不少時間研究
  • 預估轉譯時間只能供參考,並不固定
  • 考量UX所增加之功能:增設模型預估參考表、耗時倒數、常用文字檔案格式、自定義檔名

測試結果

試以音檔放入系統後進行使用。

使用介面

notion image

輸出檔案結果

notion image

部署於Hugging Face使用

  • 本工具為個人使用,暫不公開
notion image

贊助支持鼓勵

 
 
Loading...
個人電子書圖書館平台 with Synology NAS & BicBucStriim

個人電子書圖書館平台 with Synology NAS & BicBucStriim

利用NAS、Calibre、BicBucStriim等可架站一電子書圖書館,方便於網頁造訪瀏覽及下載書籍


小程式大學問:文件側視拉皮轉正

小程式大學問:文件側視拉皮轉正

使用者於平台輸入側面圖片,可以拉正為正面視圖再輸出