Experimentando con nuevos gragos: correferencia en sustantivos de la Biblia

Un sustantivo: dos personas

El proyecto de XML-TEI Bible sigue adelante. Hace poco, codificando algunos capítulos de Lucas, me encontré este versículo (2:41):

Referencia conjunta de María y José como padres

Referencia conjunta de María y José como padres

Como se observa, el evangelista referencia en un único sustantivo (padres) tanto a María (#per11) como José (#per12). Aunque ya había encontrado referencias similares, este caso me hizo recapacitar que estas dos personas con una relación tan clara y estrecha coaparecen referenciadas en un mismo sustantivo. Las Humanidades Digitales suelen crear grafos de personajes literarios utilizando la coaparición en algún tipo de unidad textual: escena,  capítulo, párrafo… De hecho XML-TEI Bible ha estado investigando la coaparición de personas en el mismo versículo. Pero aquí nos vamos a una unidad mucho menor: las dos personas coaparecen en una única palabra: un sustantivo.

Esta idea me llevó a crear varias hipótesis sobre cómo explotar esta codificación e intentar extraer relaciones claras entre entidades bíblicas. Así que estas Navidades me he puesto con la programación para extraer y visualizar la información como grafos. He de decir que por ahora solo dispongo de la mitad de la Biblia codificada. Para más información sobre los detalles de qué libros y cómo se ha codificado, se puede acceder a la documentación del proyecto, en GitHub.

Resultados generales

Por ahora he encontrado un total de 520 relaciones de este tipo entre 340 nodos, lo que representa solo el 15% del total de entidades hasta ahora identificadas. El resultado en general es que, efectivamente, entidades con una estrechísima relación aparecen relacionadas entre sí. Por ejemplo, aparecen efectivamente José y María relacionados:

José y María

José y María

De hecho aparecen muchos componentes pequeños (de 2 a 4 entidades) e inconexos entre ellos. Aparecen estas parejas que si fuesen personas y vieses a uno de ellos solo, lo primero que le preguntarías es: “¿dónde te has dejado a tu colega?” José y María, Marta y María (no la misma María, claro), Sodoma y Gomorra, Saúl y Jonatán, Copero y panadero del faraón, los dos ladrones crucificados con Jesús, las siete iglesias del apocalipsis, las tribus de Israel… Echemos un ojo más general al grafo:

Red social de entidades bíblicas según coaparición en sustantivos

Red social de entidades bíblicas según coaparición en sustantivos

El color de los nodos representa el tipo de entidad que es: persona, grupo, lugar o momento en el tiempo. Se observa que en general los nodos tienden a estar conectados con nodos del mismo tipo. Cuando no ocurre así es una relación entre persona y grupo al que pertenece (Pablo >apóstoles; Andrés > discípulos; Goliat > gigantes; Mefi-boset > familia de Saúl) y en un par de casos grupo y lugar donde vive (hebreos > Jerusalén). Aunque no siempre es así: por ejemplo los profetas y Herodes aparecen relacionados entre sí (?).

En comparación con los grafos tradicionales basados en la coaparición de entidades en el mismo versículo (grafos que han sido comentados aquí), este  contiene muchísimos menos nodos y aristas, está repartido entre muchos pequeños componentes de pocos nodos y las aristas están o pueden estar muy claras. En caso de duda, uno siempre puede buscar los dos identificadores de las entidades juntos en un mismo atributo en el código XML-TEI y comprobar quién y cómo ha relacionado ambas entidades.

Componentes del Antiguo y Nuevo Testamento

Hay algunos componentes interesantes y muy claros. Por ejemplo, en la siguiente imagen aparecen dos componentes con entidades del Antiguo Testamento:

Componentes de entidades del Antiguo Testamento

Componentes de entidades del Antiguo Testamento

En la anterior imagen vemos un componente arriba a la izquierda con Jacob en el centro, sus ancestros hacia arriba, sus mujeres hacia un lado y su hermano al otro lado. ¿Qué más pedir de un grafo? En esa misma imagen aparece a la derecha un componente con Daniel, Noé y Job unidos entre ellos. Estas personas aparecen por su cuenta relacionadas con personas que no nos sorprenden: responsables políticos (Daniel era uno), la familia de Noé y los colegas de Job. Pero ¿por qué aparecen estos tres personajes unidos entre sí? Si no vivieron épocas similares, ni protagonizan ningún libro, ni siquiera participan de un mismo género textual (profético, histórico y filosófico). ¿Qué les une? Buscamos sus identificadores y encontramos:

Noé, Job y Daniel siendo referenciados de manera conjunta en Ezequiel 14:14

Noé, Job y Daniel siendo referenciados de manera conjunta en Ezequiel 14:14

He ahí la razón: en el libro de Ezequiel, Dios referencia a los tres hombres de manera conjunta (tres hombres) señalando además la característica que los une: “solo ellos, por su justicia, librarían sus propias vidas”. En general los libros proféticos consiguen agrupar de maneras muy interesantes entidades que en principio nada tienen que ver. Veremos otros ejemplos.

En cuanto al Nuevo Testamento, también aparecen varios componentes interesantes:

Pedro y Pablo como centros de componentes del Nuevo Testamento

Pedro y Pablo como centros de componentes del Nuevo Testamento

Como se observa, Pedro es el centro de un grupo de discípulos que convivieron con Jesús, mientras que Pablo es el centro de los apóstoles del libro de Hechos. Todo bastante natural de aceptar. Llama la atención el hecho de que Pedro esté directamente relacionado con el diablo. Venga, va, esta no es tan difícil: ¿qué versículo explica esta relación?:

Jesús referenciando de manera conjunta a Satanás y a Pedro

Jesús referenciando de manera conjunta a Satanás y a Pedro

En Mateo 16:23 Jesús habla a Pedro pero referencia a Satanás. En la codificación se ha mantenido esta ambigüedad (o llámalo x) utilizando los dos identificadores tanto como receptores de la comunicación (/q/@corresp) como referentes del sustantivo Satanás.

Componente más grande

Pero hasta ahora no hemos visto el componente más grande o gigante (giant component). Vamos a ello:

Componente mayor del grafo de correferencias en sustantivo

Componente mayor del grafo de correferencias en sustantivo

Este componente tiene dos claras partes:

  • la inferior derecha, con todas las tribus y sus patriarcas;
  • la superior izquierda, con diferentes lugares, grupos y personas

En primer lugar es útil aclarar que el nodo de hebreos se ha utilizado para referenciar al conjunto de personas designadas como hebreos (por ejemplo antes de que se dividan en tribus) o al conjunto del pueblo de Israel y de Judá. El conjunto de diferentes tribus (por ejemplo en el Apocalipsis) tiene su propio nodo y cada una de las tribus también tiene su propio nodo. Es discutible que se haya decidido hacer esto, pero creo que cualquier solución sería discutible. Es curioso ver por un lado que no todos los patriarcas están unidos a su tribu; por otro lado, el hecho de que algunas tribus (Gad-Aser, Dan-Neftalí, Jośe-Benjamín y el resto) estén unidas más estrechamente entre sí. Pero la verdadera pregunta es: ¿qué hace Adán entre las tribus de Manasés, Efraín y Judá? Aquí la respuesta la vuelve a tener un profeta:

El profeta Oseas compara el comportamiento de tribus con Adán

El profeta Oseas compara el comportamiento de tribus con Adán

En este caso es en libro de Oseas en el que Dios compara varias tribus con Adán.

Este componente tiene una parte aún más interesante que la de las tribus. Israel-hebreos aparece conectados con varios nodos de otros grupos diferentes, todas relaciones bastante lógicas: samaritanos; tribu de Israel; no creyentes; creyentes; familia de los reyes de Israel; hombres de David (muy referenciados en el libro de Samuel) y Jerusalén.

La rama de Jerusalén continúa con una relación menos lógica: Samaria. Además de que son lugares, ¿qué tienen que ver Samaria y Jerusalén? Cuando además la gradación continua hacia peor: Sodoma y Gomorra. ¿Qué pasa con Samaria que es el puente entre la ciudad santa de Jerusalén a las ciudades condenadas? Ya adivinamos que son los profetas quienes tienen la respuesta de esta relación:

Samaria y Jerusalén referenciadas en Ezequiel

Samaria y Jerusalén referenciadas como adúlteras en Ezequiel

Otra de las ramas resulta más que interesante: la que sigue con los creyentes. Este grupo aparece conectado con Jesús, persona que aparece en el centro de un lazo: por un lado conectado con Dios y el Espíritu Santo; por otro lado con Elías y Juan el bautista:

Nodo de Jesús con sus relaciones

Nodo de Jesús con sus relaciones

Honestamente, me ha sorprendido encontrar la Trinidad reflejada en el grafo. ¿Qué versículo explica esto?

1 de Juan referenciando la Trinidad

1 de Juan referenciando la Trinidad

El otro lado del lazo, la relación con Elías y Juan el bautista se explica mediante varios versículos en los que se expresa que algunos identificaban a Jesús con esas otras dos personas:

Marcos 8:28 comparando Elías, Juan y Jesús

Marcos 8:28 comparando Elías, Juan y Jesús

Honestamente, parece que hayamos hecho aposta que Jesús esté en el centro de un lazo que contiene a Elías, Juan el bautista, Dios y el Espíritu Santo.

Conclusiones y pasos futuros

He estado probando diferentes redes sociales basadas en diferentes definiciones de aristas y creo que esta es una de las más interesantes que hasta ahora he visto con textos bíblicos. Al contrario de las redes sociales basadas en coaparición en versículos, todas las relaciones de este grafo tienen una buena razón. A veces esa razón no parece obvia, pero mirando el texto se descubre una buena razón para ello.

¿Cuál es la diferencia de esta arista con otras posibles definiciones? Por un lado es una unidad mucho menor que cualquier otra que haya probado hasta ahora. De hecho creo que es la menor posible. Pero, al contrario, que otras posibles soluciones pequeñas como bigramas o coaparición coplana, la unidad elegida (sustantivo) tiene un significado semántico y una motivación sintáctica. Hay que tener en cuenta que la codificación es manual y cuidada: cada capítulo ha sido leído dos veces y validado mediante diferentes estrategias al finalizar cada libro.

Todas las que están son, pero no todas las que son están. En otras palabras: diría que la precisión es altísima, pero el recall es relativamente bajo. El filtrado de información es tan fuerte que también han desaparecido algunas relaciones obvias. Por ejemplo, el país de Israel (lugar) y el pueblo de Israel (grupo) no están unidos entre sí. José y María están unidos, pero están desligados de la razón que los une: su hijo Jesús. Algunos discípulos aparecen conectados entre sí, pero otros no… Por un lado según vaya codificando más libros de la Biblia, más relaciones se irán creando. Aún así, creo que la unidad elegida es demasiado pequeña. Lo ideal sería poder expandirla manteniendo la característica de que la unidad mantenga características sintácticas y semánticas. Alguna idea tengo.

Aún así, este tipo de aristas podrían ser utilizadas para evaluar otros métodos cuyo resultado sea más difícil predecir. El objetivo en ese caso sería observar si otros tipos de aristas identifican también las relaciones obtenidas mediante la coaparición en sustantivos. Otras relaciones identificadas podrían ser también correctas, aunque eso fuese un salto de confianza.

Por último, las palabras pueden unificar entidades de otra manera. El hecho de que dos personas aparezcan referenciadas mediante, por ejemplo, la palabra rey de manera independiente quiere decir que ambas personas tienen en común algo: fueron reyes. De esta manera podríamos utilizar el texto referenciador para extraer características de cada entidad y posteriormente utilizarlas para agruparlos. ¿Cuál sería el resultado? ¿Y cuál sería el resultado de comparar estos tipos de grafos de manera sistemática?

Comenta

  • (will not be published)

XHTML: Puedes utilizar estos tags para que tu comentario tenga estilos o hipervínculos: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>