La Geniza de El Cairo, una colección de manuscritos judíos, ofrece una visión única de la historia entre el 950 y el 1250 d.C. Desafortunadamente, las hojas se encuentran esparcidas en museos y bibliotecas de todo el mundo. Los investigadores ahora están intentando reunir los fragmentos usando una computadora.
Descubiertos alrededor de 1800, ahora se encuentran dispersos por todo el mundo:fragmentos de manuscritos de la geniza (almacén) de una sinagoga en El Cairo, Egipto. Debido a que es costumbre quemar documentos en genizas a lo largo del tiempo, los manuscritos son muy especiales. La Geniza de El Cairo (así se llama la colección) ofrece una visión única de la historia entre el 950 y el 1250 d.C.
Desafortunadamente, a los científicos no les resulta fácil estudiar los documentos, porque están almacenados en bibliotecas diferentes. La mayor colección de fragmentos (alrededor de 193.000 de 280.000 piezas) se encuentra en Cambridge (Inglaterra), pero también hay grandes colecciones en Nueva York (Estados Unidos) y Manchester (Inglaterra). Afortunadamente, cada vez se digitalizan más fragmentos. Sin embargo, todavía hay un problema:¿qué fragmentos van juntos y forman un manuscrito?
Con el ordenador
Investigadores de la Universidad de Tel Aviv (Israel) y el Proyecto Friedberg Genizah han desarrollado un sistema llamado joins puede determinar; grupos de fragmentos que provienen de un mismo documento. Utilizando técnicas de procesamiento de imágenes, analizan una colección de páginas escaneadas y, sobre esa base, siempre evalúan si dos fragmentos van juntos.
Lo que dificulta el análisis, entre otras cosas, es que al escanear no se tuvo en cuenta ningún análisis automático. Es decir, el fondo no siempre es el mismo, los fragmentos no son necesariamente rectos, a veces se coloca una regla en la imagen, etc. Por lo tanto, es necesario editar la fotografía antes de poder tomar medidas. Puedes ver eso en la imagen de arriba a la izquierda:el sistema primero selecciona el fragmento en la foto, lo endereza y lo convierte en una imagen en blanco y negro (para que la computadora pueda trabajar con él rápidamente).
¿Dónde están las líneas rectas?
Uno de los pasos del análisis es determinar la orientación de las líneas:¿el texto está recto o ligeramente torcido y en qué medida? Para hacer esto, el sistema utiliza la transformada de Hough de imagen, una técnica comúnmente utilizada para determinar las líneas rectas en una imagen.
Para crear la transformación de Hough, primero se determina para cada píxel en qué líneas rectas podría ubicarse (ver ilustración a continuación).
Las posibles líneas se pueden describir con la fórmula x*cos(t) + y*sin(t) =R, donde R es la longitud de la normal entre el origen y la línea en cuestión, y t el ángulo entre la normal y el eje x. En base a esto, puedes hacer una lista de R/t para cada píxel en las combinaciones de imágenes, donde cada combinación representa una línea particular en la que puede estar el punto. Si trazas esa lista (la t en el eje x y la R en el eje y), por lo que para cada píxel obtienes una serie de puntos que puedes conectar. Este gráfico, con una línea para cada píxel de la imagen, se llama transformación de Hough.
La transformada de Hough traza las líneas rectas de la foto. Un punto blanco en el gráfico indica que hay muchos píxeles que se alinean con un determinado R/t -combinación. En otras palabras, esos píxeles están en la misma línea. Y como son muchos píxeles, probablemente sea una línea que también se ve claramente en la foto.
Leer bien
Las fotos del Cairo Geniza no contienen líneas rectas reales, pero los píxeles de las letras en una línea siempre están en una línea. Puedes ver esto en la transformada de Hough (ver más abajo), porque si miras de cerca, verás diez líneas separadas a -90° y +90°:corresponden a las diez líneas de texto que están horizontales en la hoja.
La computadora puede calcular dónde se pueden ver esas líneas claras, porque eso es en la t donde la varianza es mayor. Por ejemplo, el sistema determina cómo están las líneas de texto en el papel:por ejemplo, la variación es más alta en t =45, entonces el texto se gira en un ángulo de 45°.
Del texto a los números
La orientación del texto importa, porque el sistema utiliza un perfil de proyección hace el texto. Luego, los píxeles por columna se suman, horizontal y verticalmente (ver imagen a continuación). Si creas este perfil sin prestar atención a la rotación del texto, el resultado no será correcto.
A partir del perfil, el sistema mide una serie de características del texto, como el número de líneas, el interlineado y la altura de una línea. Estas son las "medidas físicas" en el diagrama al principio de este artículo. Para el análisis de escritura a mano, el sistema también detecta los puntos clave de la imagen; puntos del fragmento que destacan más. Para ello utiliza la técnica SIFT (ver cuadro).
Las medidas físicas y los puntos clave En realidad no son más que números. De este modo, el fragmento del manuscrito se traduce en una fila de valores, lo que se denomina vector de características. Una computadora puede manejar esto más fácilmente que una imagen.
Enseñanza
Ahora volvemos al objetivo original:determinar si dos fragmentos pertenecen al mismo documento. Para hacer esto, mire los vectores de características de las dos piezas. Cuanto más similares sean, más probable será que los textos provengan de un mismo documento. Entonces tendrán aproximadamente el mismo tamaño de fuente, interlineado y/o puntos clave. Pero, ¿cómo sabes cuán similares son dos vectores de características? son, o mejor dicho, ¿cómo lo sabe la computadora? De hecho, es cuestión de aprender.
En el sistema hay un clasificador, un programa (matemático) que utiliza un objeto de entrada, como un vector de características. puede determinar a qué grupo pertenece. Es decir, si tienes un fragmento de script, el clasificador a qué documento pertenece. Para ello, el programa debe saber evaluar un objeto; ¿Cuándo algo pertenece al grupo A (documento A) y cuándo no? Eso lo aprendes del clasificador adelante con un conjunto de entrenamiento, una colección de fragmentos de los cuales sabes cuáles van juntos. El clasificador aprende con esa información lo que distingue a un grupo de otro. Por ejemplo, en la figura siguiente puedes ver que según el tamaño del pétalo puedes saber qué tipo de iris estás tratando.
Nuevos pares
Los investigadores crearon un conjunto de entrenamiento de Cairo Geniza con uniones conocidas.; pares de fragmentos que definitivamente van juntos. Esto le enseñó al clasificador para evaluar cuándo hay una unión. Cuando los investigadores ingresaron nuevos fragmentos en pares, el clasificador dicen o no unirse eran.
Los resultados fueron mixtos. En una prueba realizada en la colección de un instituto, acertó en el ochenta por ciento de los casos. Sin embargo, también se hizo una prueba con fragmentos de diferentes colecciones, para lo que el sistema resulta especialmente útil (para que los investigadores no tengan que viajar de un lado a otro). Aquí apareció el sistema con nueve mil uniones posibles. los dos mil superiores de los cuales fueron inspeccionados manualmente. Sólo el veinticuatro por ciento de las uniones detectadas resultó ser correcto.
A pesar de los resultados algo decepcionantes, el estudio todavía tiene alrededor de mil nuevas uniones entregado. Eso es bastante en comparación con los pocos miles de expertos que han encontrado hasta ahora. Sin embargo, el sistema aún no puede funcionar sin comprobaciones manuales, ya que la puntuación de reconocimiento es demasiado baja para ello. Pero es una buena incorporación y un paso en la dirección correcta.