p/pd7nkc

@Zaious

2 年前

14

4

目前在做一些AI逐字稿上的嘗試，理想的情境是在輸入一段多講者的訪談，得到逐字稿，並做摘要。

嘗試了免費的Word聽寫功能跟OpenAI Whisper AI s2t large模型，範例使用了一份長近三個小時的心理學相關講座，有三名主要講者。

Word聽寫:
(+)可以區分講者
(-)準度只有約七成，一堆寫出來都看不懂的內容。

WhisperAI Large (需要 VRAM>10GB)
(-)不能區分講者
(+)準度超過95%，連講者中文間夾雜的英文跟專有名詞全部都能寫對。

<逐字稿比較>
最左邊是Word聽寫逐字稿，錯字多
中間是Whisper逐字稿，缺講者右邊是用Python把講者根據時間軸插進Whisper並清理格式

https://images.plurk.com/2XWd1p9SetceGKrm0cg16r.png

Zaious｜AI 情報屋

@Zaious

2 年前

整理逐字稿部分：

用GPT4-8k Model下以下的Prompt:
{"role":"system", "content": "你是位專業的逐字稿整理師"},
{"role":"user", "content": "我會給你一份(主題說明)的講座紀錄，請你幫我整理逐字稿，除了修正錯字贅字外盡可能保留原本的用詞。"},

實際問題：
1.GPT4目前只有8k，最多只能進4000tokens(約2500中文字)回4000tokens， GPT3.5有16K，但幻覺很嚴重。

等於一次大概只能處理15分鐘左右的逐字稿。(不然就是等GPT4-32K開放)

2.目前我怎麼調Prompt都很容易進4000tokens只回我1500tokens，把逐字稿內容刪減過頭。

Zaious｜AI 情報屋

@Zaious

2 年前

不知道目前有沒有能區分講者，準度接近Whisper或串Whisper的解決方案，不然...

我現在想到的方法是手寫一個Python程式，先用GPT4跑Word版本的逐字稿，提取出講者轉換的時間點，然後再用GPT4跑Whisper的逐字稿，做講者整理... 然後還要自動切文以符合模型的進出長度。

Zaious｜AI 情報屋

@Zaious

2 年前

ChatGPT: Get instant answers, find inspiration, lear...

我最後請GPT4用Python寫了一隻程式，讀取Word聽寫的講者紀錄與時間，然後把他根據時間插進Whisper的逐字稿裡面，最後整理成比較乾淨的格式，親測成功。

未來再找時間把程式碼上git