統一碼定序演算法

統一碼定序演算法（英語：Unicode collation algorithm，縮寫：UCA）是統一碼技術報告 #10 中定義的一種演算法，它是一種可自訂的方法。對任何以統一碼表示的字串文字，不論是使用哪種文字和語言，都可為其生成二進制鍵。這些鍵可以逐位元組且有效地比對，從而可以根據語言規則為他們定序或排序。這個過程中，還提供可以忽略大小寫、重音等的選項。

統一碼技術報告 #10 還定義了預設統一碼定序元素表（英語：Default Unicode Collation Element Table，縮寫：DUCET)。此檔案定義了預設的排列順序。 DUCET 可針對不同語言進行客製化。可以在通用當地數據儲存庫（英語：Common Locale Data Repository，縮寫：CLDR）中找到一些此類自訂。

國際統一碼部件（ICU）中包含了 UCA 的開源實作件。 ICU 支援裁剪，來自 CLDR 的整理裁剪包含在 ICU 中。剪裁效果和許多語言特定的剪裁效果顯示在線上ICU 區域設置瀏覽器中。

目標問題編輯

不同語言及文化，可能使用不同的排序方式，對相同的字元，德國人、法國人、瑞典人使用不同的方式排序。不同的應用，也可能使用不同的排序，譬如字典、電話簿和索引目錄。對於非字母文字，如東亞表意文字，排序也可能根據聲音或外形。此外，排序也可能根據習慣，如忽略標點符號、大寫在小寫前（或反過來）。

語言	瑞典	z < ö
語言	德國	ö < z
應用	德國字典	of < öf
應用	德國電話簿	öf < of
用戶習慣	大寫優先	A < a
用戶習慣	小寫優先	a < A

多層級比較編輯

統一碼定序演算法歸納出了多層級的比較方式。

等級	描述	例子
L1	基本	role < roles < rule
L2	重音符	role < rôle < roles
L3	大小寫或變體	role < Role < rôle
L4	標點符號	role < 「role」 < Role
Ln		role < ro□le < 「role」

另見編輯

Collation
ISO/IEC 14651
歐洲訂購規則(EOR)
通用當地數據儲存庫(CLDR)

外部連結編輯

統一碼定序演算法（頁面存檔備份，存於互聯網檔案館）：統一碼技術標準 #10
Mimer SQL Unicode 歸類圖表（頁面存檔備份，存於互聯網檔案館）

工具編輯

ICU Locale Explorer （頁面存檔備份，存於互聯網檔案館） [連結於 2021-10-10 斷開] 使用國際統一碼部件在線展示統一碼定序演算法
截至 2021-10-10 仍在ICU 定序演示（頁面存檔備份，存於互聯網檔案館）
msort （頁面存檔備份，存於互聯網檔案館）一種排序程式，它在定義排序規則和提取鍵方面提供了不同尋常的靈活性。

統一碼定序演算法

目標問題 編輯

多層級比較 編輯

另見 編輯

外部連結 編輯

工具 編輯

目標問題編輯

多層級比較編輯

另見編輯

外部連結編輯

工具編輯