Zaious|AI 情報屋
@Zaious
2 年前
2 年前
14
4
目前在做一些AI逐字稿上的嘗試,理想的情境是在輸入一段多講者的訪談,得到逐字稿,並做摘要。
嘗試了免費的Word聽寫功能跟OpenAI Whisper AI s2t large模型,範例使用了一份長近三個小時的心理學相關講座,有三名主要講者。
Word聽寫:
(+)可以區分講者
(-)準度只有約七成,一堆寫出來都看不懂的內容。
WhisperAI Large (需要 VRAM>10GB)
(-)不能區分講者
(+)準度超過95%,連講者中文間夾雜的英文跟專有名詞全部都能寫對。
<逐字稿比較>
最左邊是Word聽寫逐字稿,錯字多
中間是Whisper逐字稿,缺講者 右邊是用Python把講者根據時間軸插進Whisper並清理格式
Zaious|AI 情報屋
@Zaious
2 年前
整理逐字稿部分:
用GPT4-8k Model下以下的Prompt:
{"role":"system", "content": "你是位專業的逐字稿整理師"},
{"role":"user", "content": "我會給你一份(主題說明)的講座紀錄,請你幫我整理逐字稿,除了修正錯字贅字外盡可能保留原本的用詞。"},
實際問題:
1.GPT4目前只有8k,最多只能進4000tokens(約2500中文字)回4000tokens, GPT3.5有16K,但幻覺很嚴重。
等於一次大概只能處理15分鐘左右的逐字稿。(不然就是等GPT4-32K開放)
2.目前我怎麼調Prompt都很容易進4000tokens只回我1500tokens,把逐字稿內容刪減過頭。
Zaious|AI 情報屋
@Zaious
2 年前
不知道目前有沒有能區分講者,準度接近Whisper或串Whisper的解決方案,不然...
我現在想到的方法是手寫一個Python程式,先用GPT4跑Word版本的逐字稿,提取出講者轉換的時間點,然後再用GPT4跑Whisper的逐字稿,做講者整理... 然後還要自動切文以符合模型的進出長度。
Zaious|AI 情報屋
@Zaious
2 年前
ChatGPT: Get instant answers, find inspiration, lear...
我最後請GPT4用Python寫了一隻程式,讀取Word聽寫的講者紀錄與時間,然後把他根據時間插進Whisper的逐字稿裡面,最後整理成比較乾淨的格式,親測成功。
未來再找時間把程式碼上git
載入新的回覆
嘗試了免費的Word聽寫功能跟OpenAI Whisper AI s2t large模型,範例使用了一份長近三個小時的心理學相關講座,有三名主要講者。
Word聽寫:
(+)可以區分講者
(-)準度只有約七成,一堆寫出來都看不懂的內容。
WhisperAI Large (需要 VRAM>10GB)
(-)不能區分講者
(+)準度超過95%,連講者中文間夾雜的英文跟專有名詞全部都能寫對。
<逐字稿比較>
最左邊是Word聽寫逐字稿,錯字多
中間是Whisper逐字稿,缺講者 右邊是用Python把講者根據時間軸插進Whisper並清理格式
用GPT4-8k Model下以下的Prompt:
{"role":"system", "content": "你是位專業的逐字稿整理師"},
{"role":"user", "content": "我會給你一份(主題說明)的講座紀錄,請你幫我整理逐字稿,除了修正錯字贅字外盡可能保留原本的用詞。"},
實際問題:
1.GPT4目前只有8k,最多只能進4000tokens(約2500中文字)回4000tokens, GPT3.5有16K,但幻覺很嚴重。
等於一次大概只能處理15分鐘左右的逐字稿。(不然就是等GPT4-32K開放)
2.目前我怎麼調Prompt都很容易進4000tokens只回我1500tokens,把逐字稿內容刪減過頭。
我現在想到的方法是手寫一個Python程式,先用GPT4跑Word版本的逐字稿,提取出講者轉換的時間點,然後再用GPT4跑Whisper的逐字稿,做講者整理... 然後還要自動切文以符合模型的進出長度。
我最後請GPT4用Python寫了一隻程式,讀取Word聽寫的講者紀錄與時間,然後把他根據時間插進Whisper的逐字稿裡面,最後整理成比較乾淨的格式,親測成功。
未來再找時間把程式碼上git