Пусть задано распределение вероятностей на множестве знаков алфавита Л — Ъп — {0,1, п — 1}.
гг—1.
р (а) — вероятность буквы а € Л, где 0 ^ р (а) ^ 1 и &<*) = L
г=0.
Определим вероятность появления открытого текста длины s по формуле
Тогда открытый текст длины s в такой модели является реализацией последовательности s независимых испытаний в полиномиальной вероятностной схеме, исходами которой являются знаки алфавита Л.
Исходное распределение вероятностей на знаках алфавита оценивается экспериментально путем подсчета частот встречаемости знаков в случайно выбираемых открытых текстах. Результаты таких исследований известны для многих языков, см. [1].
Таблица 1. Частоты букв европейских языков (в процентах).
Буква. | Fr. | Dc. | En. | Es. | It. |
А. | 7,68. | 5,52. | 7,96. | 12,90. | 11,12. |
В. | 0,80. | 1,56. | 1,60. | 1,03. | 1,07. |
С. | 3,32. | 2,94. | 2,84. | 4,42. | 4,11. |
D. | 3,60. | 4,91. | 4,01. | 4,67. | 3,54. |
Е. | 17,76. | 19,18. | 12,86. | 14,15. | 11,63. |
F. | 1,06. | 1,96. | 2,62. | 0,70. | 1,15. |
G. | 1,10. | 3,60. | 1,99. | 1,00. | 1,73. |
Н. | 0,64. | 5,02. | 5,39. | 0,91. | 0,83. |
I. | 7,23. | 8,21. | 7,77. | 7,01. | 12,04. |
J. | 0,19. | 0,16. | 0,16. | 0,24. | ; |
К. | ; | 1,33. | 0,41. | ; | ; |
L. | 5,89. | 3,48. | 3,51. | 5,52. | 5,95. |
М. | 2,72. | 1,69. | 2,43. | 2,55. | 2,65. |
N. | 7,61. | 10,20. | 7,51. | 6,20. | 7,68. |
О. | 5,34. | 2,14. | 6,62. | 8,84. | 8,92. |
Р. | 3,24. | 0,54. | 1,81. | 3,26. | 2,66. |
Q. | 1,34. | 0,01. | 0,17. | 1,55. | 0,48. |
R. | 6,81. | 7,01. | 6,83. | 6,95. | 6,56. |
S. | 8,23. | 7,07. | 6,62. | 7,64. | 4,81. |
т. | 7,30. | 5,86. | 9,72. | 4,36. | 7,07. |
и. | 6,05. | 4,22. | 2,48. | 4,00. | 3,09. |
V. | 1,27. | 0,84. | 1,15. | 0,67. | 1,67. |
W. | ; | 1,38. | 1,80. | ; | ; |
X. | 0,54. | ; | 0,17. | 0,07. | ; |
Y. | 0,21. | ; | 1,52. | 1,05. | ; |
Z. | 0,07. | 1Д7. | 0,05. | 0,31. | 1,24. |
Символ «-» в приведенной таблице означает, что данный символ либо отсутствует в языке, либо вероятность его появления ничтожно мала.
Таблица 2. Частоты букв русского языка (в процентах).
— 17,5. | О 9,0. | Е, Е 7,2. | Л 6,2. | И 6,2. | Т 5,3. | Н 5,3. | С 4,5. |
Р 4,0. | В 3,8. | Л 3,5. | К 2,8. | М 2,6. | Д 2,5. | П 2,3. | У 2,1. |
Я 1,8. | Ы 1,6. | 3 1,6. | Ь, Ъ 1,4. | Б 1,4. | Г 1,3. | Ч 1,2. | Й 1,0. |
X 0,9. | Ж 0,7. | Ю 0,6. | Ш 0,6. | Ц 0,4. | Щ 0,3. | Э 0,3. | Ф 0,2. |
В приведенной таблице учитывается символ пробела, разделяющий слова. Буквы отсортированы по убыванию частоты их встречаемости, кроме того, считается, что буквы «Е» и «Ё», а также «Ъ» и «Ь» идентичны.
Таблица 3. Наиболее часто используемые буквы европейских языков.
Русский язык. | С, Е, П, 0, В, А, Л, И, Т, Р. | 55%. |
Французский язык. | i, S,/, K, T, I. R, U, L,(). | 80%. |
Итальянский язык. | I, E, A, 0, N, T, R, L, S, C. | 80%. |
Испанский язык. | E, A,0,S, I, R, N, L, D, C. | 78%. |
Немецкий язык. | E, N, I, S, R, T, A, H, I), U. | 77%. |
Английский язык. | E, T, A, I, N, R,0,S, H, D. | 75%. |
Приведенная нами простейшая (позначная) модель успешно применяется во многих практических приложениях. Вместе с тем она не учитывает существующие в открытых языках зависимости между знаками открытого текста, в частности существование запретных fc-грамм.