Словарь

о принципах создания словарей искусственных языков, сложностях автоматического порождения лексем, а также немного о лексико-типологической сфере исследований в геикваку и устройстве программы-генератора

Как обычно создаются словари искусственных языков?

Лексика конлангов для художественных вселенных обычно создается вручную, и, как правило, каждое слово придумывается отдельно. Обычно подробно проработано только одно или несколько актуальных семантических полей (сфера оружия, магии, волшебных животных, etc.), для детально продуманных миров может быть создана также бытовая лексика. Однако вести полноценный разговор на любую тему или использовать такой конланг в качестве основного языка практически невозможно из-за больших лакун в лексике. Из-за всего этого язык теряет свою правдоподобность и схожесть с естественными языками.

Конечно, не все конланги, созданные для выдуманных вселенных, такие. Например, эльфийский язык квенья из книг Толкиена или клингонский язык из сериала "Звёздный путь" разработаны настолько подробно, что на них можно ставить оперу, разговаривать между собой в обычной жизни и даже учить им детей, как второму родному языку.

Как разрабатывался словарь геикваку?

Геикваку задумывался именно таким языком, готовым для использования как в вымышленном мире, так и в реальной жизни, поэтому важно было достичь максимальной правдоподобности и натуральности. Для этого должны были быть выполнены два важных условия:

Систематичное порождение лексики

для большей схожести с естественными языками и отсутствия лакун в лексике языка,

Порождение лексики на основе словаря естественного языка

для возможности релевантного использования в бытовой жизни.

Было решено, что алгоритм порождения новых слов будет основываться на типологически редких (но не уникальных) языковых явлениях. Уникальными явлениями мы считаем такие, которые встречаются только в нескольких языках по всему миру, и не добавляем их в основу алгоритма во избежание ассоциаций с уже существующими языками. То же относится и к типологически редким явлениям, свойственным узкой группе языков.

По итогам сравнительного исследования частотных словарей русского и английского языков были выявлены первые правила порождения словаря:

Средняя длина слова

средняя длина слова – 3 слога (для большей естественности),

Длина значимых слов

наиболее частотные не служебные лексемы («мать», «отец», «человек», «день», «год», etc) должны быть короче основного массива слов, например, иметь 1-2 слога.

Далее на основе уже созданной фонологии была выбрана модель слога - (С)V, а именно простой открытый слог с возможным отсутствием начального согласного звука. Несмотря на решение опираться на типологически редкие явления, были введены ограничения на фонетические сочетания внутри слов, чтобы слова были более привычными для будущих пользователей. Фонемный состав создаваемого языка состоит из 34 согласных и 8 гласных звуков, из которых 4 являются назализованными ([i], [e], [u], [a] и [ĩ], [ẽ], [ũ], [ã]).

Отсюда возникло следующее ограничение: (а) гласный в конце слога не должен быть назализованным во избежание возникновения подобия закрытого слога. Исключением в таком случае может служить последовательность нескольких гласных (ср., "ʃueẽuka" разрешено, "ʃueẽka" не разрешено). С этим связано второе ограничение: (б) в слове не должно быть больше трёх гласных подряд, что сделано для упрощения произношения слов (ср.,"fivẽaa" разрешено, "fivẽaau" не разрешено). Третье ограничение указывает на то, что (в) разные группы звуков должны иметь различную частотность: так, лабиализованные, палатализованные и назализованные фонемы должны встречаться реже фонем без дополнительной артикуляции.

Наконец, имея алфавит и набор правил для порождения словаря, можно было приступать, собственно, к его созданию. Заранее было определено, что внешних признаков, выделяющих лексемы одной части речи (например, глаголы или прилагательные) в словообразовательной системе не будет, так как такое встречается в языках мира достаточно редко. При этом в морфологии уже было прописано, что именных классов у существительных должно быть четыре, а значит, принадлежность к этим классам надо было обозначать каким-либо образом. Поэтому было принято решение распределить все лексемы по четырем именным классам, обозначив в словаре их принадлежность к одному из классов цифрой около лексемы.

Таким образом, внешне слова оказываются не схожи, но при этом принадлежность тому или иному классу проявляется при порождении отдельных предложений и текстов.

Распределение лексем между классами должно было происходить автоматически, однако выделение всевозможных семантических полей требовало очень большого объёма времени. Другими словами, надо было задать максимально простые ограничения по семантике. Поэтому было решено, что два класса будут создаваться на основе небольших заданных словарей с русскими лексемами (так как словарь геикваку ставился в соответствие со словарём русского языка), в то время как два других класса будут включать в себя случайные лексемы. Соответственно, семантическая мотивация была только у первых двух групп.

Итак, первый именной класс покрывал семантическое поле, условно называемый «Человек». В этот семантический класс входили лексема "человек" и её супплетивная форма множественного числа "люди", лексема "бог" и связанные с ней, а также лексемы со значением имен родства (например, "мать", "отец", "дочь" и др.). Эти лексемы имеют длину от одного до трёх слогов, как наиболее частотные. Во второй именной класс входят названия зверей и птиц. По коллективному решению язык является изолированным, а носители обитают в горной долине в климате, приближенном к району Непала или Индии, поэтому в семантический класс животных были включены лексемы домашнего скота (например, "коза", "баран"), домашней птицы ("курица", "петух"), а также горные птицы, не редкие для подобной местности (например, "ястреб"). В третий и четвёртый именные классы лексемы распределялись случайно с помощью функции random.randint(), однако, для большей правдоподобности и предотвращения равных объёмов этих именных классов, распределение происходило в соотношении 1:2.

Особенным образом порождались глаголы и отглагольные существительные. Из-за случайного порождения слов, хоть и с рядом ограничений, однокоренные в русском языке слова практически никогда не были похожи друг на друга в геикваку. Однако из-за того, что связанные лексемы не могут быть абсолютно не похожи, было решено образовывать отглагольные существительные от исходных глаголов с помощью номинализационного префикса "ʃu" и соединительного гласного, случайно выбирающегося из гласных фонем без дополнительной артикуляции. За счёт такого способа словообразования возникает омонимия среди имён действия, а также дополнительное сходство среди лексем.

Помимо отглагольных существительных отдельно порождались аффиксы, служебные слова и местоимения. Очевидно, что они должны были быть похожи на самостоятельные лексемы, но при этом нужно было ввести дополнительные ограничения на их состав, чтобы избежать запрещённых сочетаний при присоединении к другим лексемам. Во-первых, служебные слова и аффиксы должны были быть короче самостоятельных лексем, и, во-вторых, они не должны были создавать закрытых слогов или слишком длинных сочетаний гласных. Помимо этого некоторые из служебных слов должны быть родственны прочим лексемам, что было уже прописано в грамматике. Так, например, прилоги должны быть родственны местоимениям, а возвратное местоимение "себя" должно было быть родственно лексеме "голова". Эти особенности основаны на данных из статей WALS.

Лексическая типология в геикваку:
вымысел или реальность?

Стоит отметить, что невозможность узнать, как во времени развивался создаваемый конланг принимается за аксиому, а потому полисемия и дополнительная омонимия возникает в порождаемом словаре случайным образом за счёт неравного распределения фонем с и без дополнительной артикуляции. При этом благодаря префиксу отглагольных существительных появляется дополнительная омонимия этих самых существительных и других лексем.

Другими словами, пусть минимально, но проявляющие себя омонимия и полисемия открывают широкий простор для лексико-типологических исследований. Однако, любые исследования, основанные исключительно на словаре и письменной литературе, не имеют значительного веса до тех пор, пока носители языка не подтверждают различия в использовании синонимичных лексем.