伊軍領袖
@titain
Wed, Jun 7, 2023 2:31 PM
Wed, Jun 7, 2023 2:57 PM
2
Whisper 語音轉文字單機版,阿嬤都會裝#chatgpt #chatgpt3 #openai #ch...
桌面版好用多了,可以直接丟MP4不用先抽音軌......
Large model 3060可以跑到接近4.5倍速,比網頁上宣稱的1倍速快了很多......
伊軍領袖
@titain
Wed, Jun 7, 2023 2:49 PM
不過前面七八分鐘轉出來的都是錯的,後面才比較正常
伊軍領袖
@titain
Wed, Jun 7, 2023 2:57 PM
..........居然能用AMD的內顯,而且一樣能用辨識力最強的Large model
伊軍領袖
@titain
Wed, Jun 7, 2023 3:19 PM
AMD內顯都有1倍速......
📛ちゃちゃN🔰
@mprincess
Wed, Jun 7, 2023 3:49 PM
amd的新driver讓支援directml的計算快一倍的樣子。
Accelerating AI With AMD Radeon
伊軍領袖
@titain
Wed, Jun 7, 2023 3:51 PM
Today, with the latest 23.5.2 driver we are delivering additional performance in AI to deliver an average of 2x performance on the latest Radeon RX 7900 series graphics cards using the Olive optimized version of Stable Diffusion.
高檔貨才支援.....
📛ちゃちゃN🔰
@mprincess
Wed, Jun 7, 2023 3:52 PM
果然擺爛www
伊軍領袖
@titain
Wed, Jun 7, 2023 4:14 PM
Medium Model接近10倍速.....
伊軍領袖
@titain
Wed, Jun 7, 2023 4:18 PM
缺點:無法處理多語系,開頭日語辨識很正常,但是後面變成講英文的時候就變成鴨子聽雷狀態,連後面有改講回日文也沒發現......
AI原來聽不懂的時候也會魂飛天外嗎?
📛ちゃちゃN🔰
@mprincess
Wed, Jun 7, 2023 4:29 PM
AI胡說八道應該有體驗過了吧。
拿來搞空耳時間應該蠻有用的
𝔪𝔞𝔫𝔦𝔞𝔠
@_maniac
Thu, Jun 8, 2023 2:35 AM
如果你有用 whisper 的 command line, 它有一個 --lang 參數表示你要用哪一個語言來處理這一段聲音, 然後中英夾雜基本上是 ok, 沒有試過日英夾雜
要的話可能先日文跑一次, 英文跑一次, 再自己把兩邊對應的時間抽出來
畢竟日本人是不太會搞日英夾雜講的
𝔪𝔞𝔫𝔦𝔞𝔠
@_maniac
Thu, Jun 8, 2023 2:37 AM
至於現在 AI 就是預設會吐東西出來, 但是吐出來的東西是不是你要就是另外一回事了, 不要太期待 AI 可以幫你處理所有事
伊軍領袖
@titain
Thu, Jun 8, 2023 3:21 AM
𝔪𝔞𝔫𝔦𝔞𝔠
: 那個lang參數如果指錯語言就會像上面那樣胡言亂語.....
𝔪𝔞𝔫𝔦𝔞𝔠
@_maniac
Thu, Jun 8, 2023 3:28 AM
伊軍領袖
: 本來就是啊, 你要把日文當中文解就是會變成空耳, 這很正常
𝔪𝔞𝔫𝔦𝔞𝔠
@_maniac
Thu, Jun 8, 2023 3:32 AM
那種通用 AI 還很遙遠, 現在各種 AI 都是只能模擬人腦某一種特定功能, 所以不要想說可以用一個 AI 打死全部
伊軍領袖
@titain
Thu, Jun 8, 2023 3:32 AM
所以大概得看以後能不能同時支援兩種語言,不過大概有可能會需要跑兩次然後自動幫你合併。model如果不給lang參數預設是會跑30秒的結果出來讓你確認該用哪一種語言.......
伊軍領袖
@titain
Thu, Jun 8, 2023 3:33 AM
那個給你偵測用的就分得出是什麼語言
伊軍領袖
@titain
Thu, Jun 8, 2023 3:35 AM
......那有可能要先用tiny或small先刷一遍確認每一句話的語系之後再批次依照時間點下去辨識,這工程就有點浩大了
𝔪𝔞𝔫𝔦𝔞𝔠
@_maniac
Thu, Jun 8, 2023 3:35 AM
要 30 秒是因為範例要夠多, 有些語言很像哦…
伊軍領袖
@titain
Thu, Jun 8, 2023 3:37 AM
對,像台語跟新加坡流閩南語wwww
載入新的回覆
桌面版好用多了,可以直接丟MP4不用先抽音軌......
Large model 3060可以跑到接近4.5倍速,比網頁上宣稱的1倍速快了很多......
不過前面七八分鐘轉出來的都是錯的,後面才比較正常
..........居然能用AMD的內顯,而且一樣能用辨識力最強的Large model
AMD內顯都有1倍速......
高檔貨才支援.....
Medium Model接近10倍速.....
缺點:無法處理多語系,開頭日語辨識很正常,但是後面變成講英文的時候就變成鴨子聽雷狀態,連後面有改講回日文也沒發現......
AI原來聽不懂的時候也會魂飛天外嗎?
拿來搞空耳時間應該蠻有用的要的話可能先日文跑一次, 英文跑一次, 再自己把兩邊對應的時間抽出來
畢竟日本人是不太會搞日英夾雜講的至於現在 AI 就是預設會吐東西出來, 但是吐出來的東西是不是你要就是另外一回事了, 不要太期待 AI 可以幫你處理所有事