Nous avons utilisé le langage XML (extensible markup language) pour encoder le texte. Notre série de balises est dérivée d'éléments proposés par la TEI (Text Encoding Initiative) mais nos balises sont abrégées et simplifiées pour faciliter l'entrée de données des manuscrits à ce niveau du projet. Dans l'étape suivante du projet, alors que nous affinerons nos données, nous réviserons notre série de balises pour nous conformer aux normes de la TEI, ainsi que pour rendre la base de données plus conforme au langage XML. (Pour plus de détails sur la TEI et XML, veuillez suivre ces liens sur la TEI, ou le Menota Project Handbook sur l'utilisation d'XML.)
Les balises XML, insérées entre les signes < et >, sont utilisées pour identifier la structure des données, qui est organisée par ordre hiérarchique. Les plus petits éléments sont imbriqués au sein des éléments plus grands. Les balises XML peuvent aussi prendre un nombre d'attributs définis par l'utilisateur pour mieux caractériser ou décrire la structure.
Nos données ont été balisées pour les éléments structurels au niveau du manuscrit (ou du codex) et à l'intérieur du texte.
Nous avons encodés les éléments codicologiques ainsi :
<manuscript>Texte du manuscrit </manuscript>
A cet
élément balisé nous ajoutons différents attributs, comme par exemple :
<manuscript place="London" lib="British Library" id="Additional 70513">.
Le manuscrit est divisé en folios identifiés par :
<pgtop pn="1r"/> (chaque balise de folio a aussi un attribut de numéro), et chaque folio a une ou plusieurs colonnes balisées ainsi :
<coltop cn="1ra"/>
La structure hiérarchique des éléments codicologiques se présente donc ainsi :
<manuscript> | |||
<pgtop> | |||
<coltop> | |||
</coltop> | |||
</pgtop> | |||
</manuscript> |
(Par convention, les balises de début et de fin </tag><tag> peuvent être réduits à une seule balise de borne <tag/> comme dans <pgtop pn="n"/>)
Les éléments textuels sont encodés ainsi :
<work> est utilisé pour indiquer les différents ouvrages dans le manuscrit. | |||||
<work> a les attributs suivants : | |||||
T (Titre), | |||||
short.title (références abrégées du titre), | |||||
aunam (nom de l'auteur), comme dans l'exemple suivant : | |||||
<work T="La Vie saynte Elizabeth" short.title="S. Elizabeth" aunam="Nicole Bozon"> |
A l'intérieur de <work> on retrouve :
<rubric> <s> (pour strophe) <v> (pour vers). |
Les plus communs, bien sûr, sont <v> et <s> qui prennent aussi des attributs indiquant le numéro de la strophe et du vers. Chaque vers a également un sigle identifiant l'œuvre (voir Sigles dans la barre de menu) :
<s sn="n"> <v ln="Siglum+n"> |
Les principales caractéristiques de copistes notées sont les corrections et les suppressions dans le texte. Un nombre limité de balises utilisées est donné ci-dessous (une liste complète sera donnée dans la deuxième phase du projet, en attendant la révision de nos balises pour accommoder les complexités des pratiques des copistes dans les sources manuscrites) :
<sic corr="texte corrigé">texte sans correction</sic>
utilisé pour indiquer des corrections de l'éditeur, indiquées en rouge en affichage standard.
<sic corr1="texte corrigé">texte non corrigé moderne</sic>
utilisé pour indiquer les corrections faites par le copiste initial.
<sic corr2="texte corrigé">texte sans correction</sic>
utilisé pour indiquer les corrections faites par un second copiste.
Les ajouts faits par le premier copiste en écrivant sont encodés ainsi :
<add place="sl">lettre ajoutée</add>
utilisé pour indiquer les ajouts supralinéaires du copiste.
Les suppressions sont encodées ainsi :
<del></del>
auxquelles sont ajoutés un nombre d'attributs pour indiquer le type de suppression et qui est responsable de la correction.
xpc="texte exponctué"
bar="texte d'un passage rayé"
erasure="texte, lisible ou illisible"
corr1="correction faite par le copiste"
corr2="correction faite par un second copiste"
corr="correction faite par l'éditeur" (rare)
Les simples suppressions faites en écrivant sont encodées ainsi :
<erasure>lettre(s) effacée(s)</erasure>
Les corrections faites par un deuxième copiste médiéval et que nous jugeons être des corrections non nécessaires sont encodées ainsi :
<stet corr2="ajout par copiste 2">texte original</stet>
Les variantes des copistes (c'est-à-dire quand un texte parallèle est donné, généralement introduit par uel dans le manuscrit) sont encodées ainsi :
<sv place="sl" (supralinéaire), ou ="margin")>dans la marge)>texte de la variante</sv>
Quand la formule d'abréviation est invariable, les résolutions des abréviations sont encodées ainsi :
<xp>résolution</xp> (cette balise sera convertie en balise plus complexe lors de la deuxième phase du projet).
Quand deux formes différentes d'abréviation sont utilisées, l'encodage les distingue en utilisant des balises comme :
<abbr type="c2" xp="com"></abbr>
(pour distinguer l'abréviation pour com/cum/cun/con qui ressemble au chiffre 9 avec un jambage sous la ligne, de la forme qui ressemble au chiffre 2).
Les signes diacritiques (é=é, ç=ç) et une partie de la ponctuation sont également encodés afin de pouvoir être recherchés. Cela inclut les guillemets simples ou doubles d'ouverture et de fermeture (&osq;, &csq;, &odq;, &cdq;), et l'apostrophe ('), utilisée pour indiquer les lettres élidées.
Les lettres sujettes à une normalisation sont également encodées :
&u; (indique un v dans le manuscrit normalisé en u);
&v;(indique un u dans le manuscrit normalisé en v).
Quand les lettres peuvent être interprétées de différentes manières, une série de deux lettres peut être utilisée, par exemple :
(&un; signifie qu'un n dans le manuscrit a été normalisé en u).
Les majuscules utilisées pour distinguer les différentes parties du texte sont encodées ainsi : &lgA4(2); = A majuscule, prenant l'espace de 4 lignes, avec un jambage ou une fioriture descendant sur deux autres lignes.
Les sections et les sous-sections du texte indiquées par ces lettres sont aussi étique ées <sec/> (pour section) ou <sec1/>)(pour sous-section).