Los expertos dentro de un área leen, para hacer inferencias respecto al conocimiento de esa área, un número considerable de libros y documentos. Sin embargo, hay un límite para la capacidad humana. Por ejemplo, si quisiéramos leer todos los libros publicados en inglés durante el 2000 y pudiéramos leer unas 200 palabras por minuto sin pausas para comer o dormir, la empresa nos llevaría 80 años. Es decir, sería imposible. Sería muy interesante, sin embargo, poder explorar los patrones que emergieran de un análisis de todos los libros publicados -desde el origen de los libros- a la fecha. Los resultados tendrían implicaciones desde el punto de vista de la historia, el estudio de la evolución del lenguaje, la lingüística y la sociología, por solo mencionar algunas especialidades. Con estas preguntas en mente, un grupo de investigadores de varios institutos y universidades en Estados Unidos liderados por Jean-Baptiste Michel y Erez Lieberman Aiden y auxiliados por el equipo de libros de Google (a cargo de digitalizar todos los libros que sea posible), se propusieron hacer una análisis cuantitativo de la información alojada en 5 millones de libros, que son más o menos, el 4% de todos los libros publicados. Esta cantidad de libros no son todos los libros digitalizados, si no únicamente aquellos con OCR y metadatos de calidad que los autores consideraron adecuados para su estudio. |
|
Para hacer un análisis de la frecuencia de uso consideraron que un 1-gramo corresponde a una cadena de caracteres no interrumpida por un espacio, es decir, palabras (como “bolillo”) y también números (como “3.14159”). Un n-gramo sería una secuencia de 1-gramos como “Estados Unidos Mexicanos” o “bolsa de valores”. A partir de los 5 millones de libros obtuvieron un cuerpo de 500 mil millones de palabras. Para calentar motores el equipo norteamericano examinó la frecuencia y uso de palabras, los cambios lingüísticos, léxicos y gramaticales a través del tiempo, así como algunos fenómenos culturales. La lectora o lector ocioso puede divertirse y explorar el cuerpo de datos completo en www.culturomics.org y ngrams.googlelabs.com. |
Sus análisis, varios de ellos centrados en aspectos del idioma inglés, arrojaron datos curiosos. Por ejemplo, el número de palabras en inglés se ha incrementado a lo largo del tiempo: 544,000 en 1900, 597,000 en 1950 a 1,022,000 en el 2000. Ese número de palabras son muchas más de las que aparecen en cualquier diccionario. Esto se debe a que los diccionarios enlistan aquellas palabras cuyo uso es más frecuente, aunque implica que por lo menos la mitad de las palabras contenidas en los libros (52%) son elementos que no se encuentran documentados en referencias especializadas. En consecuencia, este tipo de herramientas podrían ayudar a los lexicógrafos a acortar la distancia entre el lenguaje usual (por lo menos en libros) y aquel que aparece en los diccionarios; por medio de un análisis de frecuencia de palabras se podrían eliminar aquellas palabras que no son tan utilizadas e incorporar (o reincorporar) aquellas cuyo uso se ha incrementado.
Con todos estos libros digitalizados, también es posible hacer un análisis de la evolución de la gramática. Los análisis demostraron que, en inglés, la “regularidad” de los verbos irregulares ha coqueteado con la regularización -y de regreso- en los últimos 500 años. Algunos verbos tienden a regularizarse a una velocidad constante mientras que otros se regularizan sorprendentemente rápido.
(Interesantemente, los verbos que son 100 veces menos frecuentes se regularizan 10 veces más rápido. Es decir, la vida media de los verbos irregulares es proporcional a la raíz cuadrada de su frecuencia).
Con la culturómica también fue posible comprobar que la fama es como una abeja: tiene un sonido, pica y ¡ah! también vuela. En un análisis de 740,000 personajes famosos se encontró que el pico promedio de la fama ocurre 75 años después del nacimiento del personaje en cuestión. Sin embargo, en los últimos años el camino a la fama se ha vuelto más corto pero la fama alcanzada más efímera. Entre principios del siglo XIX y mediados del siglo XX la edad inicial de fama cayó de 43 a 29 años, pero la duración de la fama postpico cayó también de 120 a 71 años.
Por supuesto, la fama depende de en qué lugar nos encontremos y en qué momento de la historia. Es decir, analizando las menciones de personajes famosos también es posible detectar o confirmar censura y supresión. Por ejemplo ¿quiénes fueron las comprobadas víctimas de la represión nazi? Pablo Picasso, Walter Gropius (el arquitecto Bauhaus) y Hermann Maas (un ministro protestante que ayudó a escapar a muchos judíos). Tal vez, estos personajes eran víctimas muy obvias, pero mediante un análisis culturómico es posible identificar víctimas dentro de un grupo más grande.
Otra información aleatoria que encontraron Jean-Baptiste, Erez y su equipo: 1) en la batalla de los sexos, las “mujeres” le están ganando terreno a los “hombres”, 2) el “feminismo” aterrizó en Francia pero fue en Estados Unidos donde floreció, 3) “Galileo”, “Darwin” y “Einstein” fueron geniales, pero con quien tenemos fijación es con “Freud”, 4) cuando la “evolución” decaía llegó el “DNA” para salvarla y 5) “Dios” sigue entre nosotros, pero necesita una nueva estrategia publicitaria.
Los libros fueron solo el comienzo, ahora sería buenísimo seguir el análisis con periódicos, manuscritos, mapas, obras de arte y cualquier otro tipo de obra humana susceptible de análisis. La culturómica es lo de hoy: nos permite desenterrar una nueva especie fósiles y nos abre el panorama del estudio de la cultura humana.Imagen tomada de aquí. |
Michel, J., Shen, Y., Aiden, A., Veres, A., Gray, M., , ., Pickett, J., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M., & Aiden, E. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books Science, 331 (6014), 176-182 DOI: 10.1126/science.1199644
Lieberman, E., Michel, J., Jackson, J., Tang, T., & Nowak, M. (2007). Quantifying the evolutionary dynamics of language Nature, 449 (7163), 713-716 DOI: 10.1038/nature06137
No hay comentarios:
Publicar un comentario