赤雪豹
工作上獲得的小知識:UTF-8編碼中,有兩個長得很像但是不一樣的「理」字符喔 (吐血)
一個是%uF9E4,另一個是%u7406
但是我不知道要怎麼打出這兩個字就是了...不然就是不同輸入法所以輸出不同的字嗎 (思
中央西門風痕影
看到赤貓這個,想到之前遇過一個狀況:

對方用 Mac 上的 Keynote 把 PPT 轉成 PDF,我在 Windows 上選取 PDF 裡的文字複製出來,有些字會變成重複的(實際上不是重複,而是長很像的字都被列出來)
中央西門風痕影
那次複製出來的字串是:2019年年10⽉月8⽇日⾄至

年 / U+5E74 / 「年」
年 / U+F98E / 「中日韓相容表意文字」中南韓的「年」

⽉ / U+2F49 / 部首的「月」
月 / U+6708 / 「月」

⽇ / U+2F47 / 部首的「日」
日 / U+65E5 / 「日」

⾄ / U+2F84 / 部首的「至」
至 / U+81F3 / 「至」
中央西門風痕影
我也試過改用 Chrome 內建的 PDF 閱讀器來複製,而不是用 Adobe 的那款。雖然結果縮成一個字,但他複製出來的都是排在第一個的字...(所以有三個變部首)
中央西門風痕影
關於南韓為什麼多了一個「年」,我當初查到的資料說:

南韓自己的編碼 KS X 1001 是以讀音來排的,如果同個字有不同發音就會被編好幾次,例如「樂」這個字就被編四次(

所以為了一一對應來相容,Unicode 有個相容區來擺這些重複的字。赤貓這個「理」跟「理」剛查了一下,也是一樣的原因(那批韓國的字位於 U+F900 - U+FA0B)
赤雪豹
中央西門風痕影 : 原來如此,後來查了一下U+F9E4也是中日韓相容表意文字,我想應該跟小風說的一樣是發音或讀寫的關係,如果是這樣,那應該就不是輸入法的關係,而是語言就不同了 (
赤雪豹
中央西門風痕影 : 阿不過,如果是用Windows的中文打出來的話,會是U+F9E4的那個字符,反而不確定客戶是怎麼輸入另一個U+7406進系統的 (
載入新的回覆