


簡介 編輯



即,在給定前面一個詞 的前提下,出現某個詞 的概率 與他們構成的雙字母組的概率一致,換言之,兩個詞同時出現的概率 被出現前一個詞 的概率除。

Gappy bigrams或稱skipping bigrams是允許有跳空的詞對組(也許想避免把詞連接起來,或者想允許某種模擬的依賴,如依賴語法)。

Head word bigrams是具有明確依賴關係的gappy bigrams。

應用 編輯



英語裏雙字母組的出現頻率 編輯


th 1.52%       en 0.55%       ng 0.18%
he 1.28%       ed 0.53%       of 0.16%
in 0.94%       to 0.52%       al 0.09%
er 0.94%       it 0.50%       de 0.09%
an 0.82%       ou 0.50%       se 0.08%
re 0.68%       ea 0.47%       le 0.08%
nd 0.63%       hi 0.46%       sa 0.06%
at 0.59%       is 0.46%       si 0.05%
on 0.57%       or 0.43%       ar 0.04%
nt 0.56%       ti 0.34%       ve 0.04%
ha 0.56%       as 0.33%       ra 0.04%
es 0.56%       te 0.27%       ld 0.02%
st 0.55%       et 0.19%       ur 0.02%


參考文獻 編輯

  1. ^ Collins, Michael John. A new statistical parser based on bigram lexical dependencies. Association for Computational Linguistics: 184–191. 1996-06-24 [2018-10-09]. doi:10.3115/981863.981888. (原始內容存檔於2018-10-08). 
  2. ^ Cornell Math Explorer's Project – Substitution Ciphers. [2011-03-22]. (原始內容存檔於2011-06-05). 
  3. ^ Jones, Michael N; D J K Mewhort. Case-sensitive letter and bigram frequency counts from large-scale English corpora. Behavior Research Methods, Instruments, and Computers. August 2004, 36 (3): 388–396. ISSN 0743-3808. PMID 15641428. 

參見 編輯