Adaptación de Freeling - reglas

En lo relativo a las reglas específicas para los diferentes módulos de procesamiento de Freeling, a saber: a) reglas de división de palabras o tokenizer; b) reglas de división en frases o splitter; c) reglas de afijación, y d) reglas para la detección de expresiones multi-palabra, destaca el hecho de que en nuestro caso debíamos lidiar, por un lado, con el uso de guiones medios y bajos, utilizados en la transcripción normalizada para marcar, respectivamente, formas de escritura unitaria en la ortografía del español estándar que en judeoespañol tienden a notarse separadamente como:

ליב'י מינטי / leve-mente,

y formas complejas de escritura unitaria en judeoespañol que en español estándar se notan separadamente, como

מולו דיירון / mo_lo dieron;

y, por otro, con no pocos casos de expresiones (principalmente) hebreas insertas en algunos de los textos, en aquellos casos de claro ejemplo de cambio de código, que debían ser ignoradas por Freeling.


En cuanto a las reglas lingüísticas que se han creado o modificado, podemos citar la incorporación de clíticos propios del judeoespañol (con y sin diacríticos) y su reconocimiento en posiciones sintácticas ajenas a las del español estándar, como en la siguiente para clíticos que no existen en español (lis, si, sin, mos/moś) que además dan cuenta de casos no existentes en español moderno como los clíticos pospuestos a una forma verbal conjugada (díjolis); ver ejemplo: