Victor Baranov

Baranov, Victor, Prof., DSc. Kalazhnikov Izhevsk State Technical University, Russia

Создание и использование исторических корпусов славянских письменных памятников

Creation and Using of Historical Corpora of Slavonic Manuscripts

  • Summary/Abstract
    The requirements for historical corpora of medieval texts 1) are determined by properties of the data and the historical-linguistic, textological and linguo-textological tasks to be solved; 2) and should be realized with the help of special tagging, processing procedures, query parameters and retrieval demonstrations. The corpus should a) have metadata concerning both texts and manuscripts, and involving both linguistic and analytical tagging; b) support the rendering of documents (facsimile and transcription), concordances, lists, and comparison of subcorpora data; c) simplify graphic-orthographic variation during data search and visualization; d) provide tools both for processing and searching linguistic material and its further analysis according to traditional methods; and e) support problem description and resolution by applying corpus methods that engage with the quantity, distribution, co-occurrence, and variation of linguistic units in big data arrays. The realization of these requirements is demonstrated on a subcorpus of three copies of chronicles (Laurentian, Hypatian, Radzivilovsky) from the historical corpus project “Manuscript” (manuscripts.ru).

Исторический корпус как цель и инструмент корпусной палеославистик

Diachronic OCS Corpus as an Object and an Instrument of Corpus Palaeoslavitic


Proposal for a unified encoding of Early Cyrillic glyphs in the Unicode Private Use Area

  • Summary/Abstract

    The paper proposes an encoding standard for early Cyrillic characters and glyphs that are still missing in the Universal Character Set (UCS) of the Unicode Standard and for different reasons will probably never be included, but are nevertheless used by the paleoslavistic community. This micro-standard is meant to expand, not to replace the Unicode standard and follows the path chosen by the Medieval Unicode Font Initiative (MUFI) a few years ago for the Latin script (see http://www.hit.uib.no/mufi/). Starting from the inventory of Old Cyrillic originally proposed at the conference held in Belgrade on 15–17 October 2007 (see BP), and taking in view the recommendations given by Birnbaum et al. 2008 and the MUFI-consortium, the chosen set is limited to 178 units with a specific function (characters and composites, superscript characters, modifier characters, and punctuation marks), which are located in the Private Use Area (PUA). Their positions (code points) are coordinated with MUFI. This set we will call PUA1. In the future a second set PUA2 will be proposed for a number of ligatures and paleographic variants that may not be coordinated with MUFI and are intended for special publications addressed to Slavistic readers. It is hoped that the proposed PUA encoding for Early Cyrillic Symbols, for which we choose the abbreviation CYFI, will establish itself as a sort of micro-standardization. Designers of scholarly fonts are encouraged to include these symbols according to this proposal (see code points in the appendix).

    Keywords:

Полнотекстовые базы данных как основа для электронных изданий средневековых рукописей в Интернете: требования, реализация, перспективы

Full-text Data Bases as Foundation of Electronic Publications of Mediaeval Manuscripts in Internet: Requirements, Realization, Perspectives

  • Summary/Abstract

    Статья посвящена вопросам хранения, обработки в базах данных и публикации в Интернете транскрипций древних славянских письменных памятников. Основное внимание уделено требованиям, которые должны предъявляться к информационно-аналитическим системам исследовательской направленности, содержащим сведения как о самих рукописях и текстах, так и о их текстологических и лингвистических единицах. Помимо известных пользовательских компонентов – средств (1) навигации, (2) создания запросов, (3) упорядочения и визуализации выборок, – подобные системы должны иметь и необходимые компоненты, позволяющие создавать полнотекстовые электронные коллекции и библиотеки, – (1) модули ввода и редактирования данных (текстов и их единиц) и информации о них, (2) средства установления связей между единицами текстов, рукописей и их частей, (3) справочники, словари и авторитетные файлы для мета-, аналитического и лингвистического описания и разбора, (4) средства автоматизированной трансформации единиц. Примером многофункциональной системы, удовлетворяющей указанным требованиям, является информационно-аналитическая система (ИАС) «Манускрипт», создаваемая с 2003 года в Удмуртском и Ижевском техническом государственных университетах (руководитель работы – Виктор А. Баранов, URL портала проекта – http://manuscripts.ru/). В статье представлены функциональные возможности основных модулей системы – (1) специализированного редактора OldEd, (2) модуля грамматических словарей, (3) web-модуля поиска и лемматизации текстовых прецедентов, (4) web-формы поиска на основе мета- и аналитической информации, (5) web-модуля запросов и представления материалов коллекций.

    Keywords:

Subscribe to Victor Baranov