Участник:GW91238/Язык Z-land
В боях Z-Land (сленг: Покемоны) могут посылать фразы на своём языке. В данной статье представлен простой анализ этого языка.
Алфавит
Алфавит состоит из:
- 5 гласных:
а, е, и, о, у. - 11 согласных:
б, в, г, д, к, м, н, п, р, с, т.
Лексика
Словарный состав языка Z-land состоит из слов, сформированных по следующим правилам:
Слова без дефисов:
- 1—11 или 15 букв;
- минимум 1 гласная;
- минимум 1 согласная (только для слов из 2 букв);
- максимум 3 гласных подряд;
- максимум 3 согласных подряд (для слов, короче 7 букв);
- максимум 4 согласных подряд (для слов от 7 букв);
Слова с дефисами (указаны паттерны, с — согласная, г — гласная):
- длина 6:
сг-сгг; - длина 10:
гсс-сгссгс; - длина 10:
сгссг-сгсг; - длина 11:
сгс-гсс-сгс.
Таким образом, с учётом правил общий словарный запас составляет около 1,15 квинтиллиона (1,15 х 1018 или 1,15 миллиона триллионов) слов, из которых 543 562 250 слов содержат дефисы (15 125 — 1 дефис).
Корпус
Данные для анализа
Для анализа реплик Z-land были взяты все фразы ботов за 73 дня (подряд за 2018 год и в разнобой за вторую половину 2016 года).
Все фразы с запятыми (т. е. возможно содержащие обращения к другим ботам или игрокам) были отфильтрованы.
| Дата | Всего фраз | Фразы без запятых |
|---|---|---|
| 26.06.2016 | 31076 | 9269 |
| 30.06.2016 | 31744 | 9430 |
| 05.07.2016 | 31130 | 9455 |
| 07.07.2016 | 30076 | 8797 |
| 15.07.2016 | 38423 | 11462 |
| 20.07.2016 | 33504 | 9994 |
| 28.07.2016 | 33291 | 9901 |
| 30.07.2016 | 32807 | 9770 |
| 31.07.2016 | 37414 | 11281 |
| 04.08.2016 | 41615 | 12338 |
| 12.08.2016 | 36121 | 10850 |
| 14.08.2016 | 38714 | 11621 |
| 23.08.2016 | 37389 | 11260 |
| 24.08.2016 | 39016 | 11708 |
| 26.08.2016 | 39628 | 11733 |
| 28.08.2016 | 35936 | 10862 |
| 10.09.2016 | 39367 | 11834 |
| 14.09.2016 | 40434 | 12121 |
| 20.09.2016 | 41901 | 12797 |
| 23.09.2016 | 42582 | 12845 |
| 24.09.2016 | 42534 | 12824 |
| 27.09.2016 | 43187 | 12867 |
| 29.09.2016 | 43313 | 12812 |
| 08.10.2016 | 42585 | 12657 |
| 11.10.2016 | 44297 | 13170 |
| 12.10.2016 | 43384 | 12948 |
| 21.10.2016 | 39179 | 11710 |
| 28.10.2016 | 39123 | 11750 |
| 09.11.2016 | 42478 | 12987 |
| 10.11.2016 | 37894 | 11399 |
| 11.11.2016 | 37890 | 11309 |
| 13.11.2016 | 42478 | 12901 |
| 15.11.2016 | 42749 | 12758 |
| 16.11.2016 | 44410 | 13437 |
| 17.11.2016 | 42954 | 12756 |
| 24.11.2016 | 66005 | 19616 |
| 07.12.2016 | 43200 | 12854 |
| 11.12.2016 | 46026 | 13940 |
| 12.12.2016 | 50292 | 15122 |
| 01.07.2018 | 49102 | 14633 |
| 02.07.2018 | 47854 | 14293 |
| 03.07.2018 | 48090 | 14422 |
| 04.07.2018 | 49355 | 14656 |
| 05.07.2018 | 48782 | 14745 |
| 06.07.2018 | 47526 | 14145 |
| 07.07.2018 | 44732 | 13516 |
| 08.07.2018 | 46456 | 14066 |
| 09.07.2018 | 48643 | 14428 |
| 10.07.2018 | 49234 | 14664 |
| 11.07.2018 | 48523 | 14639 |
| 12.07.2018 | 47058 | 13983 |
| 13.07.2018 | 46715 | 13985 |
| 14.07.2018 | 43864 | 13092 |
| 15.07.2018 | 45012 | 13215 |
| 16.07.2018 | 41737 | 12532 |
| 17.07.2018 | 42075 | 12628 |
| 18.07.2018 | 43547 | 13020 |
| 19.07.2018 | 47018 | 14124 |
| 20.07.2018 | 42014 | 12474 |
| 21.07.2018 | 42029 | 12645 |
| 22.07.2018 | 44803 | 13572 |
| 23.07.2018 | 42587 | 12802 |
| 24.07.2018 | 43259 | 12986 |
| 25.07.2018 | 42123 | 12461 |
| 26.07.2018 | 41514 | 12444 |
| 27.07.2018 | 42558 | 12818 |
| 28.07.2018 | 43726 | 12955 |
| 29.07.2018 | 46038 | 13840 |
| 30.07.2018 | 46229 | 13627 |
| 31.07.2018 | 47453 | 14059 |
| 01.08.2018 | 48521 | 14707 |
| 02.08.2018 | 47338 | 14108 |
| 03.08.2018 | 43935 | 13191 |
Статистика
Общая статистика корпуса:
- Всего фраз: 3 115 596;
- Фраз без запятых: 932 620;
- Фраз с запятыми: 2 182 976;
- Слов во фразах без запятых: 3 409 746.
Длина слов
Распределение слов по длине в корпусе без запятых:
| Длина слова | % слов с длиной |
|---|---|
| 1 | 3,33 |
| 2 | 18,71 |
| 3 | 20,86 |
| 4 | 25,18 |
| 5 | 13,86 |
| 6 | 8,23 |
| 7 | 5,55 |
| 8 | 2,19 |
| 9 | 0,84 |
| 10 | 0,73 |
| 11 | 0,42 |
| 15 | 0,11 |
Распределение слов
Z-lands употребляют слова внутри одной длины и одной подгруппы правил с одинаковой вероятностью.
Например, для шаблона сг в анализируемом корпусе слова встречались со следующей частотой:
| Слово | количество в корпусе |
|---|---|
| ба | 3827 |
| бе | 3854 |
| би | 3864 |
| бо | 3734 |
| бу | 3827 |
| ва | 3891 |
| ве | 3877 |
| ви | 3852 |
| во | 3773 |
| ву | 3894 |
| га | 3815 |
| ге | 3889 |
| ги | 3841 |
| го | 3906 |
| гу | 3830 |
| да | 3855 |
| де | 3895 |
| ди | 3771 |
| до | 3745 |
| ду | 3881 |
| ка | 3881 |
| ке | 3708 |
| ки | 3775 |
| ко | 3906 |
| ку | 3800 |
| ма | 3834 |
| ме | 3852 |
| ми | 3951 |
| мо | 3924 |
| му | 3724 |
| на | 3790 |
| не | 3726 |
| ни | 3804 |
| но | 3889 |
| ну | 3742 |
| па | 3755 |
| пе | 3829 |
| пи | 3802 |
| по | 3844 |
| пу | 3811 |
| ра | 3819 |
| ре | 3816 |
| ри | 3895 |
| ро | 3872 |
| ру | 3780 |
| са | 3839 |
| се | 3762 |
| си | 3894 |
| со | 3912 |
| су | 3781 |
| та | 3903 |
| те | 3799 |
| ти | 3860 |
| то | 3721 |
| ту | 3953 |
А для шаблона гс слова встречались со следующей частотой:
| Слово | количество в корпусе |
|---|---|
| аб | 7903 |
| ав | 7808 |
| аг | 7766 |
| ад | 7653 |
| ак | 7818 |
| ам | 7869 |
| ан | 7529 |
| ап | 7681 |
| ар | 7792 |
| ас | 7729 |
| ат | 7775 |
| еб | 7944 |
| ев | 7857 |
| ег | 7699 |
| ед | 7783 |
| ек | 7934 |
| ем | 7809 |
| ен | 7859 |
| еп | 7807 |
| ер | 7610 |
| ес | 7745 |
| ет | 7697 |
| иб | 7696 |
| ив | 7707 |
| иг | 7777 |
| ид | 7886 |
| ик | 7634 |
| им | 7874 |
| ин | 7794 |
| ип | 7703 |
| ир | 7636 |
| ис | 7854 |
| ит | 7764 |
| об | 7796 |
| ов | 7801 |
| ог | 7671 |
| од | 7723 |
| ок | 7681 |
| ом | 7780 |
| он | 7780 |
| оп | 7693 |
| ор | 7599 |
| ос | 7810 |
| от | 7946 |
| уб | 7687 |
| ув | 7869 |
| уг | 7898 |
| уд | 7833 |
| ук | 7666 |
| ум | 7522 |
| ун | 7806 |
| уп | 7829 |
| ур | 7816 |
| ус | 7820 |
| ут | 7695 |
Таким образом, речь Z-Land представляет собой последовательность сгенерированных по описанным выше правилам слов с равномерным распределением внутри подгрупп правил. Разное распределение по количеству внутри одной длины слов возникает из-за алгоритма генерирования, стремящегося следовать правилам при выборе следующей буквы.