Частотность букв таджикского языка

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Первые исследования по частотности букв в таджикском языке были предприняты в 2001 году[1] и связывались с определениями «наилучшей» раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. Ниже приведены результаты на основе статистической обработки произведений отдельных поэтов и писателей и сформирована общая картина частотности букв в классической и современной таджикской литературе.[2][3]

Статистика[править | править код]

Статистика частотности букв таджикского языка без учёта пробелов:

Ранг Буква Употреблений Частотность Информативность
1 А 195836 16,54 % 16.54
 
0,429 0.429
 
2 О 100038 8,45 % 8.45
 
0,301 0.301
 
3 Р 87084 7,35 % 7.35
 
0,277 0.277
 
4 И 86991 7,35 % 7.35
 
0,277 0.277
 
5 Н 81061 6,84 % 6.84
 
0,265 0.265
 
6 Д 80182 6,77 % 6.77
 
0,263 0.263
 
7 У 55282 4,67 % 4.67
 
0,206 0.206
 
8 Б 52717 4,45 % 4.45
 
0,200 0.2
 
9 М 49675 4,19 % 4.19
 
0,192 0.192
 
10 Т 42325 3,57 % 3.57
 
0,172 0.172
 
11 С 32392 2,74 % 2.74
 
0,142 0.142
 
12 К 32105 2,71 % 2.71
 
0,141 0.141
 
13 Ш 30861 2,61 % 2.61
 
0,137 0.137
 
14 Ҳ 30175 2,55 % 2.55
 
0,135 0.135
 
15 З 28835 2,43 % 2.43
 
0,131 0.131
 
16 Е 25284 2,13 % 2.13
 
0,118 0.118
 
17 Г 22190 1,87 % 1.87
 
0,108 0.108
 
18 В 18755 1,58 % 1.58
 
0,095 0.095
 
19 Х 18248 1,54 % 1.54
 
0,093 0.093
 
20 Л 14694 1,24 % 1.24
 
0,079 0.079
 
21 Ӯ 13967 1,18 % 1.18
 
0,076 0.076
 
22 Ф 12976 1,10 % 1.1
 
0,071 0.071
 
23 П 12425 1,05 % 1.05
 
0,069 0.069
 
24 Ч 10000 0,84 % 0.84
 
0,058 0.058
 
25 Ҷ 8748 0,74 % 0.74
 
0,052 0.052
 
26 Й 8447 0,71 % 0.71
 
0,051 0.051
 
27 Ӣ 7874 0,66 % 0.66
 
0,048 0.048
 
28 Я 6870 0,58 % 0.58
 
0,043 0.043
 
29 Ё 6454 0,54 % 0.54
 
0,041 0.041
 
30 Қ 4650 0,39 % 0.39
 
0,031 0.031
 
31 Ғ 2734 0,23 % 0.23
 
0,020 0.02
 
32 Э 1503 0,13 % 0.13
 
0,012 0.012
 
33 Ъ 1488 0,13 % 0.13
 
0,012 0.012
 
34 Ж 867 0,07 % 0.07
 
0,008 0.008
 
35 Ю 574 0,05 % 0.05
 
0,005 0.005
 
Сумма 1184307 100,00 % 4,358


Статистика частотности букв таджикского языка с учётом пробела:

Ранг Буква Употреблений Частотность Информативность
1 Пробел 265983 18,34 % 18.34
 
0,449 0.449
 
2 А 195836 13,50 % 13.5
 
0,390 0.39
 
3 О 100038 6,90 % 6.9
 
0,266 0.266
 
4 Р 87084 6,00 % 6
 
0,244 0.244
 
5 И 86991 6,00 % 6
 
0,243 0.243
 
6 Н 81061 5,59 % 5.59
 
0,233 0.233
 
7 Д 80182 5,53 % 5.53
 
0,231 0.231
 
8 У 55282 3,81 % 3.81
 
0,180 0.18
 
9 Б 52717 3,63 % 3.63
 
0,174 0.174
 
10 М 49675 3,43 % 3.43
 
0,167 0.167
 
11 Т 42325 2,92 % 2.92
 
0,149 0.149
 
12 С 32392 2,23 % 2.23
 
0,122 0.122
 
13 К 32105 2,21 % 2.21
 
0,122 0.122
 
14 Ш 30861 2,13 % 2.13
 
0,118 0.118
 
15 Ҳ 30175 2,08 % 2.08
 
0,116 0.116
 
16 З 28835 1,99 % 1.99
 
0,112 0.112
 
17 Е 25284 1,74 % 1.74
 
0,102 0.102
 
18 Г 22190 1,53 % 1.53
 
0,092 0.092
 
19 В 18755 1,29 % 1.29
 
0,081 0.081
 
20 Х 18248 1,26 % 1.26
 
0,079 0.079
 
21 Л 14694 1,01 % 1.01
 
0,067 0.067
 
22 Ӯ 13967 0,96 % 0.96
 
0,065 0.065
 
23 Ф 12976 0,89 % 0.89
 
0,061 0.061
 
24 П 12425 0,86 % 0.86
 
0,059 0.059
 
25 Ч 10000 0,69 % 0.69
 
0,050 0.05
 
26 Ҷ 8748 0,60 % 0.6
 
0,044 0.044
 
27 Й 8447 0,58 % 0.58
 
0,043 0.043
 
28 Ӣ 7874 0,54 % 0.54
 
0,041 0.041
 
29 Я 6870 0,47 % 0.47
 
0,037 0.037
 
30 Ё 6454 0,45 % 0.45
 
0,035 0.035
 
31 Қ 4650 0,32 % 0.32
 
0,027 0.027
 
32 Ғ 2734 0,19 % 0.19
 
0,017 0.017
 
33 Э 1503 0,10 % 0.1
 
0,010 0.01
 
34 Ъ 1488 0,10 % 0.1
 
0,010 0.01
 
35 Ж 867 0,06 % 0.06
 
0,006 0.006
 
36 Ю 574 0,04 % 0.04
 
0,004 0.004
 
Сумма 1450290 100,00 % 4,246

Примечания[править | править код]

  1. Усманов З. Д., Солиев О. М. Проблема раскладки символов на компьютерной клавиатуре — Душанбе: Ирфон, 2010, 104 с.
  2. Усманов З. Д., Косимов А. А. Частотность букв таджикской литературы — Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112—115
  3. Косимов А. А. Басомади такроршавии ҳарфҳои адабиёти тоҷик — Маҷаллаи «Шафақ», Нашрияи Кумиҷроияи Ҳизби Халқии Демократии Тоҷикистон дар шаҳри Хуҷанд, 24.11.2015, № 21, с. 2.