山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:20 PM
ಠ_ಠ - 擴散請求 有一件事情想請各位旅人幫忙 「視頻」一詞 在GOOGLE翻譯被社群認證了QQ ...
其實我一直覺得語言間本來就會流動的……
當然保有自身語言傳統十分重要,但過度隔離會讓我覺得有點小題大作
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:22 PM
對我而言,我同意我們可以的話要盡量用本土的詞彙
但如果見到人用了一個對岸詞彙就要求對方修正,我真的覺得有點……過度上綱上線?
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:22 PM
怎麼說,不覺得很KY嗎ry
(好吧KY跟ry這個也是語言同化的結果,對不起我真的很不愛國x)
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:25 PM
另外罵翻譯軟體/說google舔共/不在乎臺灣這個我真的覺得沒必要
我想以比較技術的角度來談談翻譯這回事(盡量淺顯)
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:29 PM
從2016年開始,google翻譯是用神經網路搭配統計式翻譯(以神經網路為主)
何謂統計式翻譯?
顧名思義,就是蒐集大量文件,直接用數學去分析一個詞彙在你輸入的情況下,是什麼意思的機率最大,或者可信度最高,把最高的當作答案
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:32 PM
何謂神經網路?
我很喜歡把訓練神經網路比擬做
教導小孩
小孩成長的過程中,會看到、聽到很多外界的資訊,或許有的資訊小孩可以從老師、家長那邊得到解答(supervise),也或許沒有,他就是這麼看、大量的看、大量的接觸資料,然後
小孩自己會形成一套對世界的理解
,然後利用自己的理解對新的問題提出解答
很神奇吧,我真的覺得神經網路很有意思(但我並不喜歡研究他【】)
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:34 PM
有沒有發現兩個的共通點?
資料
只要資料量一大,這兩者自然都會被影響,可以說現在的翻譯是被資料量佔領著
而毋庸置疑的是,
簡體的資料量顯而易見的比較多
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:38 PM
喔有人可能會說,「怎麼會,簡體字也才出現60年!繁體可是有2000年了!」
呃,首先,我相信拿文言文訓練得出來的翻譯,你一定不會想看……
所有資料來源一定是近現代,翻譯的結果才會符合現代人認為「好」的翻譯品質,就拿50年代的文學統計出來的數據搞不好你都不會想看……
Song ?_?
@without0525
Sat, May 16, 2020 4:39 PM
我也覺得有點反應太大 自己講的時候會避開 但控制不了這種吃數據量的谷歌翻譯呀......
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:43 PM
第二,
翻譯不是拿到純文本就可以訓練的
在教小孩,你總要有
教材
吧,還記得你怎麼學英文嗎?一本單字書,左邊英文單字,右邊告訴你中文翻譯
訓練模型也是這個樣子的,而這些教材一般都是要有人工標註,或者有特殊管道可以分析提取
神經網路的訓練資料量動輒幾個G在算,說真的,對岸人多,學術機構多,他們真的比較能製作出這些資料庫
大不了灑幣下去請一堆人過來當教材勞工,幾百G的資料都能給你生出來,這點臺灣真的辦不到
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:45 PM
好了,說完資料,接下來說另一個難點
……其實要說淺顯的話,我也真的沒什麼能好好闡述的方法
簡單來說就是,
跨語言翻譯本身真的是一個非常非常難的工作
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:48 PM
而繁體中文跟簡體中文,真的是世界上最相像的兩個語言了,他們九成九的內容都能互通,只要做繁簡轉換就可以
來,請摸著你的良心告訴我
在跨語言翻譯成本這麼高,而直接繁簡轉換基本能解決八成問題時,你會選擇為了一個不到四千萬人使用的語言重新架構一個翻譯系統嗎?
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:52 PM
Sat, May 16, 2020 4:52 PM
再來,請不要忘記,不管是Google, Facebook還是Microsoft,他們的Research Team大多都是非華語人士
他們大多根本不懂中文,
你指望他們還能分清繁簡的差別到底在哪嗎?
對他們來說中文字都是一堆串燒的方塊而已
他們連拿到Data後可能自己都看不出繁簡,讓他們去清理資料然後重新Train太難了
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:52 PM
要我說,Google特地為我們開了一個Traditional Chinese的欄位已經很佛心了
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:54 PM
===============
以上是
不小心打太多的
比較技術性的內容
……但其實下面才是我原本想吐槽的東西ryy
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:57 PM
怎麼說,其實用最多人使用的字詞來當作標準翻譯很正常吧,即使在不同國家有不同的說法?
Hello你們還記得世界上有249個國家嗎?Google上面可是只有108個語言?
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:58 PM
繁體中文可是佔了108分之一喔?有沒有很光榮?????
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 4:59 PM
臺灣:Google用大陸詞彙當作中文翻譯是不尊重臺灣人
英國:...am I a joke to you?
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:00 PM
hello各位,你們還記得英語跟美語很多用詞也不一樣嗎???
還有西班牙文,南美跟歐洲的西班牙文天差地別喔?????
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:02 PM
至於那個社群認證
覺得不爽你平常倒是去認證啊???
協助改善 Google 翻譯品質 - Google Translate說明
對岸這麼多人翻牆時都順手幫忙認證了,你們平常光會把自己的paper丟上去拿翻譯,倒是順手幫忙認證一下???(笑
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:04 PM
然後拜託中文翻譯不要寫信去Google總部抗議啦,總部都不懂華語的人跟中國人,想做也做不起來(沒有資料/沒有能力)
想要改善繁體中文翻譯品質,你們寫信給Google Taiwan,說服他們為繁中的翻譯成立研究小組,這個可行性還比較高吧
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:05 PM
=
對不起我話有點多,說完了(應該
神小闇𝄡我永遠喜歡アイナナ
@holly87326
Sat, May 16, 2020 5:05 PM
我是覺得噗浪上對於中國用語已經有點接近走火入魔了,甚至已經到了就是明明最早是台灣傳過去又傳回來的用詞也很敏感
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:06 PM
Song ?_?
: 真的wwww
本來數據多就一定肯定絕對會變成Ground truth,但臺灣又沒有能力去製作可以跟簡中媲美的dataset(好慘
神小闇𝄡我永遠喜歡アイナナ
@holly87326
Sat, May 16, 2020 5:07 PM
甚至遇到沒聽過的詞第一個反應也是上噗浪問這是中國用語嗎?
比較想知道......所以使用什麼詞真的會讓我漸漸的覺得可以接受中國嗎?對我而言他就是外來語言,我的認知裡那個跟阿里阿多那類的一樣@@
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:08 PM
神小闇𝄡我永遠喜歡アイナナ
: 真的走火入魔……
有時候在說無關的事情,然後下面有人出來糾正xx用詞臺灣應該用xx才對,雖然感恩對方的糾正,但偶爾還是覺得ky……
神小闇𝄡我永遠喜歡アイナナ
@holly87326
Sat, May 16, 2020 5:09 PM
之前水泉的節錄下我也看到過......重點是那個是台灣用詞
對方還堅定的說他幾年前看大學生了沒根本沒人知道......當時的想法是:WTF大學生了沒是能當作什麼參考啊
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:14 PM
對!!!對我而言我真的不覺得說什麼就會讓我認同什麼,但他們好像是覺得小孩子容易受影響……
我是覺得,說話是一回事,能不能接受對方的思想根本是另一回事
拒絕語言輸入並不能拒絕思想輸入,今天你告訴小孩就算看抖音xx詞在台灣也應該說xx,就算他們能理解,用詞也改正了,但他們繼續用抖音思想還是照樣被潛移默化啊?
倒不如說要直接拒絕抖音輸入吧,那又是另一個問題了不是嗎?糾結語言感覺不是重點?
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:15 PM
雖然沒看前後情景,但用大學生了沒當參考這個真的是有點詭異www
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:15 PM
↑ 說起來'w'也是語言同化吧(我覺得我也快走火入魔了
神小闇𝄡我永遠喜歡アイナナ
@holly87326
Sat, May 16, 2020 5:16 PM
我剛剛跑去翻了一下,那時候好像是泉大寫了個「反話好雷」,然後被說好雷感覺很中國
神小闇𝄡我永遠喜歡アイナナ
@holly87326
Sat, May 16, 2020 5:18 PM
我有時候是覺得,阿這些詞就比較好用啊,比如說三觀.學霸.學渣這類的,而且我用了不代表我會接受啊...
我是覺得有些人的想法是只要有漏洞了後面就會越來越大,我是覺得......
我爸是說等那些小孩子遇到中國小粉紅那樣說要統一的就是觀念對立的時候就會從天然統變回天然獨了啦
<今天剛好跟老爸聊到有很多人說國中那一代感覺很天然統
神小闇𝄡我永遠喜歡アイナナ
@holly87326
Sat, May 16, 2020 5:19 PM
馬反正就......
太逆風了也不能在偷偷說發
神小闇𝄡我永遠喜歡アイナナ
@holly87326
Sat, May 16, 2020 5:19 PM
w超好用wwwwwww
赤楓Ꮤ🕶️🌸青椒炒花
@g5420g
Sat, May 16, 2020 5:20 PM
那則噗因為實在是太過了,看了一下直接滑掉(
大家可以一起來研究語言學然後用論文發表互打巴掌,我覺得這才能正大光明的踩著自己的論點撕逼
而且我覺得研究員撕逼真的是件很浪漫的事
當然不是說單純討論不行啦,只是看到這些就想嘔回去(
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:23 PM
因為要睡了先不回了,明天再回(因為我又想回一大串(幹)
赤楓Ꮤ🕶️🌸青椒炒花
@g5420g
Sat, May 16, 2020 5:24 PM
突然有點感嘆
總覺得已經有部分臺灣人敏感點和實際作為已經變小粉綠了,動不動就被戳到然後出征(不是在指民O黨,是用紅色的對立色來表達兩個極端)。
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:24 PM
Sun, May 17, 2020 2:43 AM
睡前先推一下,真的建議大家無聊去幫google玩那個社群認證wwwww滿好玩的
像這種有簡體的直接x掉,久了google的小孩(神經網路)就能學會簡體跟繁體的差別啦~
而且從認證題目上來看,可以看到他們繁體資料有多稀缺
山特▶黑暗料理之路
@boxbox557
Sat, May 16, 2020 5:26 PM
幹這個好難,cursor繁體中文是什麼,游標?
光標好像是大陸用語(走火入魔
赤楓Ꮤ🕶️🌸青椒炒花
@g5420g
Sat, May 16, 2020 5:30 PM
教育部國語辭典如是說
身為老師與師祖的死忠粉絲,要死忠維護「臺灣用語由教育部說的算」
焰凜佟。七弦聲冷
@algidity
Sat, May 16, 2020 6:46 PM
他們不是講鼠標嗎
講得我好想吃豆標
帽(; ゚∀ ゚;)
@apoorstudent
Sun, May 17, 2020 2:14 AM
應該滿多人也不覺得是google問題啦,就是不爽中國,雖然牆內不能用google,但是主要的資料來源還是他們貢獻的
我看到有些翻譯的當下也是白眼翻到天邊,所以會想去改回來,例如I am so surprised 翻成嚇死寶寶了真的是讓我surprised ,但是這麼做不是覺得你這樣翻就是該死,只是我覺得繁中使用者(或至少臺灣人)可以看到更貼近我們原本的用法,會比較開心
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:33 AM
帽(; ゚∀ ゚;)
: 其實我看那則偷偷說,我覺得滿多人認為是Google的問題的……ry
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:37 AM
焰凜佟。七弦聲冷
: 你又想吃豆標了wwwwwwwwwwww
說起來也好久沒吃了x
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:38 AM
赤楓Ꮤ🕶️🌸青椒炒花
: 👌看來我沒選錯!(選錯也來不及了XD
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:41 AM
小粉綠好諷刺又好貼切(笑爛
這個超有感……剛好前陣子看到這噗
就,現在說話就很難(
ಠ_ಠ - 我知道在噗浪應該算是逆風抱怨 但還是借一下偷偷說版面 女友是反共中國人 但對出生國還是有感情...
關於小粉綠我晚點開個新噗談,這噗還是專注翻譯好了(就昨天晚上說要講的
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:41 AM
Sun, May 17, 2020 2:41 AM
順便
你們這樣說話真的不覺得累嗎ry
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:41 AM
====================
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:43 AM
各位,昨天我玩了一個多小時的Google翻譯社群!我要更正我上面的說法!
Google翻譯不是做成繁簡通用的!!!!!
他們繁體跟簡體是作為兩個語言系統分開處理的!
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:48 AM
至於為什麼翻譯結果會出現很多簡中直翻,我想了下有個覺得還算合理的解釋
就是Google翻譯的小孩(神經網路)看了很大量的資料,然後自己發現了「繁體中文跟簡體中文的相關性」
所以當他翻譯遇到困難時,就學會了
互相參照繁簡來進行翻譯
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:48 AM
可以理解為一個小孩子,他數學題目做不出來,可是他發現好像只要把物理題目的答案加100大多就是數學題目的答案
所以他以後寫考卷就學會了參考物理題來寫數學題
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:49 AM
而因為沒有數學老師糾正他,所以他並沒有發現,其實在某些題目上物理題跟數學題是不能參照的
所以說!這是數學老師的錯啊!
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:50 AM
結論,繁體翻譯為什麼會這麼爛,繁體用戶更沒有理由罵Google了啊!
完全就是繁體用戶沒人去社群貢獻的原因啊!!
只要多一些數學老師去告訴小孩,這題在數學上應有的正確答案,小孩久了就會知道那些不一樣了!
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 2:51 AM
誠摯建議各位,
都 去 玩 社 群 協 助!!!
帽(; ゚∀ ゚;)
@apoorstudent
Sun, May 17, 2020 3:18 AM
大概是很多說google翻譯都翻成中國用語的,我都當成他是抱怨一個現狀,但不一定把這歸因於google公司本身吧(可能歸因到上面也懷疑過的繁簡共用問題、中國輸入量太龐大之類的)
帽(; ゚∀ ゚;)
@apoorstudent
Sun, May 17, 2020 3:19 AM
為什麼你的社群是是非題,我這邊只看到他要我整句翻譯
山特▶黑暗料理之路
@boxbox557
Sun, May 17, 2020 5:06 AM
Sun, May 17, 2020 5:06 AM
他有四個方塊~左上是翻譯問答,右上是核可是非
但有時候其中幾個區塊會不見,可能是積分不夠,或後臺沒有資料要問大家了XD
(玩了一天,我真的覺得繁中翻譯資源非常非常少)
帽(; ゚∀ ゚;)
@apoorstudent
Sun, May 17, 2020 7:36 AM
那我可能是積分不夠XD慢慢刷
載入新的回覆
其實我一直覺得語言間本來就會流動的……
當然保有自身語言傳統十分重要,但過度隔離會讓我覺得有點小題大作
但如果見到人用了一個對岸詞彙就要求對方修正,我真的覺得有點……過度上綱上線?
(好吧KY跟ry這個也是語言同化的結果,對不起我真的很不愛國x)
我想以比較技術的角度來談談翻譯這回事(盡量淺顯)
何謂統計式翻譯?
顧名思義,就是蒐集大量文件,直接用數學去分析一個詞彙在你輸入的情況下,是什麼意思的機率最大,或者可信度最高,把最高的當作答案
我很喜歡把訓練神經網路比擬做教導小孩
小孩成長的過程中,會看到、聽到很多外界的資訊,或許有的資訊小孩可以從老師、家長那邊得到解答(supervise),也或許沒有,他就是這麼看、大量的看、大量的接觸資料,然後小孩自己會形成一套對世界的理解,然後利用自己的理解對新的問題提出解答
很神奇吧,我真的覺得神經網路很有意思(但我並不喜歡研究他【】)
資料
只要資料量一大,這兩者自然都會被影響,可以說現在的翻譯是被資料量佔領著
而毋庸置疑的是,簡體的資料量顯而易見的比較多
呃,首先,我相信拿文言文訓練得出來的翻譯,你一定不會想看……
所有資料來源一定是近現代,翻譯的結果才會符合現代人認為「好」的翻譯品質,就拿50年代的文學統計出來的數據搞不好你都不會想看……
在教小孩,你總要有教材吧,還記得你怎麼學英文嗎?一本單字書,左邊英文單字,右邊告訴你中文翻譯
訓練模型也是這個樣子的,而這些教材一般都是要有人工標註,或者有特殊管道可以分析提取
神經網路的訓練資料量動輒幾個G在算,說真的,對岸人多,學術機構多,他們真的比較能製作出這些資料庫
大不了灑幣下去請一堆人過來當教材勞工,幾百G的資料都能給你生出來,這點臺灣真的辦不到
……其實要說淺顯的話,我也真的沒什麼能好好闡述的方法
簡單來說就是,跨語言翻譯本身真的是一個非常非常難的工作
來,請摸著你的良心告訴我
在跨語言翻譯成本這麼高,而直接繁簡轉換基本能解決八成問題時,你會選擇為了一個不到四千萬人使用的語言重新架構一個翻譯系統嗎?
他們大多根本不懂中文,你指望他們還能分清繁簡的差別到底在哪嗎?對他們來說中文字都是一堆串燒的方塊而已
他們連拿到Data後可能自己都看不出繁簡,讓他們去清理資料然後重新Train太難了
以上是
不小心打太多的比較技術性的內容……但其實下面才是我原本想吐槽的東西ryy
Hello你們還記得世界上有249個國家嗎?Google上面可是只有108個語言?
臺灣:Google用大陸詞彙當作中文翻譯是不尊重臺灣人
英國:...am I a joke to you?
還有西班牙文,南美跟歐洲的西班牙文天差地別喔?????
覺得不爽你平常倒是去認證啊???
協助改善 Google 翻譯品質 - Google Translate說明
對岸這麼多人翻牆時都順手幫忙認證了,你們平常光會把自己的paper丟上去拿翻譯,倒是順手幫忙認證一下???(笑
想要改善繁體中文翻譯品質,你們寫信給Google Taiwan,說服他們為繁中的翻譯成立研究小組,這個可行性還比較高吧
對不起我話有點多,說完了(應該
本來數據多就一定肯定絕對會變成Ground truth,但臺灣又沒有能力去製作可以跟簡中媲美的dataset(好慘
比較想知道......所以使用什麼詞真的會讓我漸漸的覺得可以接受中國嗎?對我而言他就是外來語言,我的認知裡那個跟阿里阿多那類的一樣@@
有時候在說無關的事情,然後下面有人出來糾正xx用詞臺灣應該用xx才對,雖然感恩對方的糾正,但偶爾還是覺得ky……
對方還堅定的說他幾年前看大學生了沒根本沒人知道......當時的想法是:WTF大學生了沒是能當作什麼參考啊
我是覺得,說話是一回事,能不能接受對方的思想根本是另一回事
拒絕語言輸入並不能拒絕思想輸入,今天你告訴小孩就算看抖音xx詞在台灣也應該說xx,就算他們能理解,用詞也改正了,但他們繼續用抖音思想還是照樣被潛移默化啊?
倒不如說要直接拒絕抖音輸入吧,那又是另一個問題了不是嗎?糾結語言感覺不是重點?
我是覺得有些人的想法是只要有漏洞了後面就會越來越大,我是覺得......
我爸是說等那些小孩子遇到中國小粉紅那樣說要統一的就是觀念對立的時候就會從天然統變回天然獨了啦<今天剛好跟老爸聊到有很多人說國中那一代感覺很天然統太逆風了也不能在偷偷說發
大家可以一起來研究語言學然後用論文發表互打巴掌,我覺得這才能正大光明的踩著自己的論點撕逼而且我覺得研究員撕逼真的是件很浪漫的事當然不是說單純討論不行啦,只是看到這些就想嘔回去(
總覺得已經有部分臺灣人敏感點和實際作為已經變小粉綠了,動不動就被戳到然後出征(不是在指民O黨,是用紅色的對立色來表達兩個極端)。
像這種有簡體的直接x掉,久了google的小孩(神經網路)就能學會簡體跟繁體的差別啦~
而且從認證題目上來看,可以看到他們繁體資料有多稀缺幹這個好難,cursor繁體中文是什麼,游標?
光標好像是大陸用語(走火入魔
身為老師與師祖的死忠粉絲,要死忠維護「臺灣用語由教育部說的算」他們不是講鼠標嗎講得我好想吃豆標我看到有些翻譯的當下也是白眼翻到天邊,所以會想去改回來,例如I am so surprised 翻成嚇死寶寶了真的是讓我surprised ,但是這麼做不是覺得你這樣翻就是該死,只是我覺得繁中使用者(或至少臺灣人)可以看到更貼近我們原本的用法,會比較開心
說起來也好久沒吃了x
這個超有感……剛好前陣子看到這噗
就,現在說話就很難(
關於小粉綠我晚點開個新噗談,這噗還是專注翻譯好了(就昨天晚上說要講的
你們這樣說話真的不覺得累嗎ry
Google翻譯不是做成繁簡通用的!!!!!
他們繁體跟簡體是作為兩個語言系統分開處理的!
就是Google翻譯的小孩(神經網路)看了很大量的資料,然後自己發現了「繁體中文跟簡體中文的相關性」
所以當他翻譯遇到困難時,就學會了互相參照繁簡來進行翻譯
所以他以後寫考卷就學會了參考物理題來寫數學題
所以說!這是數學老師的錯啊!
完全就是繁體用戶沒人去社群貢獻的原因啊!!
只要多一些數學老師去告訴小孩,這題在數學上應有的正確答案,小孩久了就會知道那些不一樣了!
但有時候其中幾個區塊會不見,可能是積分不夠,或後臺沒有資料要問大家了XD
(玩了一天,我真的覺得繁中翻譯資源非常非常少)