Blog de Ángel Romera: Márkov, padre del texto predictivo y de la IA

jueves, 28 de mayo de 2026

Márkov, padre del texto predictivo y de la IA

¿Cuántas veces necesitas barajar un mazo de cartas para que estén realmente revueltas? ¿Cuánto uranio se necesita para construir una bomba nuclear? ¿Cómo puedes predecir la siguiente palabra en una oración? Y ¿cómo sabe Google cuál es la página que estabas buscando? La razón por la que tenemos la respuesta a estas preguntas se debe a una extraña disputa matemática en Rusia que tuvo lugar hace más de 100 años.

En 1905, grupos socialistas en toda Rusia se levantaron contra el Zar, el gobernante del imperio. Exigían una reforma política completa o, en su defecto, que renunciara totalmente al poder.

Esto dividió a la nación en dos. Por un lado tienes a los zaristas. Ellos querían defender el statu quo y mantener al zar en el poder. Y, por el otro, tenías a los socialistas que querían una reforma política total.

Y esta división fue tan profunda que se infiltró en cada parte de la sociedad, al punto de que hasta las matemáticas empezaron a tomar partido. Del lado del Zar estaba Pável Nekrásov, conocido informalmente como "el zar de la probabilidad". Nekrásov era un hombre profundamente religioso y poderoso, y utilizó su posición para argumentar que las matemáticas podían usarse para explicar el libre albedrío y la voluntad de Dios.

Su némesis intelectual en el lado socialista era Andréi Márkov, también conocido como "Andréi el Furioso". Andréi Márkov era ateo y no tenía paciencia con las personas que no eran rigurosas, como consideraba a Pável Nekrásov, porque a sus ojos las matemáticas nada tenían que ver con el libre albedrío o la religión.

Así que criticó públicamente el trabajo de Nekrásov, incluyéndolo en la lista de abusos de las matemáticas.

Su disputa se centraba en la idea principal que la gente había utilizado para hacer cálculos de probabilidad durante los últimos 200 años. Y podemos ilustrarlo solamente lanzando una moneda. Cuando yo lanzo la moneda 10 veces, obtengo seis veces cara y cuatro veces cruz, lo cual, obviamente, no es el 50 % / 50 % que esperarías; pero, si sigo lanzando la moneda, al principio la relación varía mucho, pero tras un gran número de lanzamientos vemos que lentamente se estabiliza y se acerca al 50 % / 50 %.

Y, en este caso, tras 100 lanzamientos, terminamos con 51 caras y 49 cruces, lo cual es, casi exactamente, lo que se espera.

Este comportamiento en el que el resultado promedio se aproxima cada vez más y más al valor esperado a medida que se realizan más pruebas independientes, se conoce como la Ley de los grandes números. Fue probado por primera vez por Jacob Bernoulli en 1713, y fue el concepto clave de la teoría de probabilidad hasta antes de Andréi Márkov y Pável Nekrásov.

Pero Bernoulli solo demostró que funcionaba para eventos independientes, como lanzar una moneda o cuando se le pide a la gente que adivine el valor de un artículo por separado, donde un evento no influye en los otros.

Pero, ahora, imagina que en lugar de pedirle a cada persona que haga su estimación individualmente, les pides que griten su respuesta en público.

En este caso, la primera persona podría pensar que es un artículo extremadamente valioso y decir que vale unos 2.000 dólares.

Pero ahora todas las demás personas en la sala están influidas por este valor, y sus conjeturas se vuelven dependientes; y, entonces, el promedio no converge hacia el valor real, sino que se agrupa alrededor de una cantidad más alta. Y así, durante 200 años, la probabilidad se basó en la suposición clave de que se necesita independencia para que la ley de los grandes números se cumpla. Y fue esta idea la que desató la disputa entre Pável Nekrásov y Andréi Márkov.

Nekrasov estaba de acuerdo con Bernoulli en que se necesita independencia para obtener la Ley de los grandes números, pero fue un paso más allá: dijo que, si se observa la Ley de los grandes números, se puede inferir que los eventos subyacentes deben ser independientes.

Tomemos este registro de matrimonios belgas de 1841 a 1845. Se puede ver que cada año el promedio es de alrededor de 29.000, por lo que parece que los valores convergen y por lo tanto se cumple la Ley de los grandes números. Y cuando Nekrásov examinó otras estadísticas sociales como las tasas de criminalidad y natalidad, notó un patrón similar.

Pero, ahora, piensa de dónde vienen todos estos datos: provienen de decisiones de casarse, decisiones de cometer delitos y decisiones de tener hijos, al menos en su mayoría. Así, Nekrásov concluyó que dado que estas estadísticas siguen la Ley de los grandes números, las decisiones que las causan deben ser independientes. Es decir, argumentaba que debían ser actos de libre albedrío. Para él, el libre albedrío no solo era algo filosófico, sino algo que se podía medir: era científico. Pero para Márkov, Nekrásov desvariaba. Le parecía absurdo vincular la independencia matemática con el libre albedrío.

Así que Márkov se propuso demostrar que los eventos dependientes también podían seguir la Ley de los grandes números y que incluso se puede hacer probabilidad con este tipo de eventos. Para esto necesitaba algo donde un evento dependiera claramente de lo que ocurrió antes; y se le ocurrió que esto es lo que sucedía en un texto: que la siguiente letra sea una consonante o una vocal depende, en gran medida, de cuál es la letra actual.

Para probar esto, Márkov recurrió a un poema fundamental de la literatura rusa. Eugenio Oneguin de Alexándr Pushkin.

Tomó las primeras 20.000 letras del poema, eliminó toda la puntuación y los espacios y las unió en una larga cadena de caracteres. Contó las letras, y descubrió que el 43% eran vocales y el 57% eran consonantes.

Luego, Márkov dividió la cadena en pares superpuestos. Eso le dio cuatro combinaciones posibles: vocal vocal (VV), consonante consonante (CC), vocal consonante (VC) o consonante vocal (CV). Ahora, si las letras fueran independientes, la probabilidad de un par VV sería simplemente la probabilidad de una vocal dos veces, que es aproximadamente 0.18 o un 18 % de probabilidad. Pero, cuando Márkov los contó, encontró que los pares VV solo aparecían el 6% de las veces, mucho menos de lo que sería, si fueran independientes. Y, cuando verificó los otros pares, descubrió que todos los valores diferían enormemente de lo que se predecía en cada caso independiente. Así que Márkov demostró que las letras eran dependientes. Y, para vencer a Nekrásov, lo único que necesitaba hacer ahora era demostrar que estas letras aún seguían la ley de los grandes números. Así que creo una especie de máquina de predicción.

Comenzó dibujando dos círculos, uno para una vocal y otro para una consonante. Estos eran sus estados. Ahora, supongamos que estás en una vocal. Entonces, la siguiente letra podría ser una vocal o consonante. Así que dibujó dos flechas para representar estas transiciones. Pero, ¿cuáles son las probabilidades de estas transiciones?

Markov sabía que si elige un punto de inicio al azar, hay un 43% de probabilidad de que sea una vocal. También sabía que los pares de vocales ocurren aproximadamente el 6% de las veces. Entonces, para encontrar la probabilidad de pasar de una vocal a otra, dividió 0,06 por 0.43 y encontró una probabilidad de transición de aproximadamente 13%. Y, dado que hay un 100% de probabilidad de que haya una siguiente letra, todas las flechas que parten del mismo estado deben sumar 1. Entonces, la probabilidad de que siga una consonante es 1 - 0,13: 0,87%.

Repitió este proceso para las consonantes para completar su máquina predictiva. Veamos cómo funciona.

Comenzamos con una vocal. Luego generamos un número aleatorio entre 0 y 1. Si es menor a 0,13 obtenemos otra vocal. Y, si es mayor, obtenemos una consonante. Obtuvimos 0,78, así que es consonante; luego generamos otro número y verificamos si es mayor o menor que 0,67: 0,21. Así que es una vocal.

Podemos seguir haciendo esto y llevar un registro de la proporción de vocales a consonantes. Al principio la proporción varía mucho, pero después de un tiempo converge en un valor constante: 43% vocales y 57% consonantes. La división exacta que Márkov había calculado a mano.

Márkov había construido un sistema dependiente, una cadena literal de eventos, y demostró que también seguía la Ley de los grandes números, lo que significaba que observar la convergencia en las estadísticas sociales no probaba que las decisiones subyacentes fueran independientes. En otras palabras, esas estadísticas no prueban para nada el libre albedrío. Márkov había destrozado el argumento de Nekrásov y lo sabía, así que terminó su artículo con una última indirecta a su rival: "Por lo tanto, el libre albedrío no es necesario para hacer probabilidad". De hecho, ni siquiera es necesaria la independencia para hacer probabilidad. Con esta cadena de Markov, como llegó a conocerse, se encontró una manera de hacer probabilidad con eventos dependientes.

Esto debería haber sido un gran avance, porque en el mundo real casi todo depende de otra cosa. Es decir, el clima de mañana depende de las condiciones de hoy. La propagación de una enfermedad depende de quién está infectado ahora, y el comportamiento de las partículas depende del comportamiento de las partículas a su alrededor. Muchos de estos procesos podrían modelarse usando cadenas de Márkov.

La gente piensa que fue un golpe de gracia como: "¡Oh, Nekrásov perdió, Márkov es el mejor!" O, en realidad, no lo notaron y pasó desapercibido. Creo que la gente no se dio cuenta, como que no fue algo muy importante. Y al mismo Márkov aparentemente no le importó mucho cómo podría aplicarse en situaciones prácticas. Escribió: "Solo me interesan las cuestiones de análisis puro. Para mí, el tema de su utilidad me es indiferente." No se imaginaba que esta nueva forma de teoría de probabilidad pronto desempeñaría un papel importante en uno de los desarrollos más significativos del siglo XX.

La mañana del 16 de julio de 1945, Estados Unidos detonó el Gadget, la primera bomba nuclear del mundo. La bomba de plutonio de 6 kg creó una explosión equivalente a casi 25.000 toneladas de TNT. Esta fue la culminación del ultrasecreto proyecto Manhattan, un trabajo de 3 años realizado por algunas de las mentes más brillantes de la época, incluyendo a personas como J. Robert Oppenheimer, John von Neumann y un matemático poco conocido llamado Stanislaw Ulam, padre de la posterior bomba de hidrógeno o bomba H. Incluso después del fin de la guerra, Ulam continuó intentando entender cómo se comportaban los neutrones dentro de una bomba nuclear.

Una bomba nuclear funciona más o menos así. Digamos que tienes un núcleo de uranio 235. Cuando un neutrón lo impacta, el núcleo se divide, liberando energía, y, muy importante, dos o tres neutrones más. Si esos nuevos neutrones continúan chocando y dividiendo en promedio más de un núcleo de uranio 235, se produce una reacción en cadena descontrolada, lo que resulta en una bomba nuclear. Pero el uranio 235, el combustible fisible que requieren las bombas, era muy difícil de obtener. Así que una de las preguntas clave era cuánto se necesitaba para construir una bomba; y para eso Ulam quería entender cómo se comportaban los neutrones. Pero luego, en enero de 1946, todo se detuvo: Ulam sufrió un caso repentino y grave de encefalitis, una inflamación del cerebro que casi termina con él; su recuperación fue larga y lenta y pasaba la mayor parte de su tiempo en cama.

Y, para pasar el tiempo, jugaba un sencillo juego de cartas, el solitario, pero mientras jugaba un sinfín de partidas, ganando algunas, perdiendo otras, una pregunta le rondaba la cabeza: ¿Qué probabilidades hay de ganar una partida de solitario barajada al azar?

Era un problema aparentemente fácil, pero difícil de resolver. Jugaba con las 52 cartas donde cada disposición creaba un juego único. Así que el número total de juegos posibles era 52! o aproximadamente 8 por 10 elevado a 67.

Resolver esto analíticamente era imposible, pero Ulam tuvo un destello de inspiración: ¿y si jugaba cientos de partidas y contaba cuántas se podían ganar? Eso le daría una especie de aproximación estadística de la respuesta. En Los Álamos, el resto de científicos lidiaban con problemas mucho más complejos que el solitario, como entender cómo se comportan los neutrones en el núcleo atómico.

En un núcleo atómico hay miles de millones de neutrones interactuando con su alrededor. Entonces, el número posible de resultados es inmenso y calcularlos directamente parece imposible. Pero cuando Ulam regresó al trabajo tuvo una revelación repentina. ¿Y si pudiéramos simular estos sistemas generando muchos resultados aleatorios, como hice con el solitario? Compartió su idea con Von Neumann, quien inmediatamente reconoció su potencial; pero también detectó un problema importante: en el solitario, cada partida es independiente. Cómo se reparten las cartas en una partida no afecta a la siguiente. Pero los neutrones no son así. El comportamiento de un neutrón depende de dónde está y de lo que se ha hecho antes.

No se podía simplemente mostrar resultados aleatorios como en el solitario. En cambio, se necesitaba modelar toda una cadena de eventos donde cada paso influía en el siguiente. Von Neumann se dio cuenta de que necesitaba una cadena de Márkov, así que hicieron una, y así funciona una versión mucho más simplificada.

El estado inicial es solamente un neutrón viajando a través del núcleo y, a partir de ahí, pueden ocurrir tres cosas.

1. Puede dispersarse al chocar con un átomo y seguir viajando, lo que resulta en una flecha que regresa a sí misma.

2. Puede salir del sistema o ser absorbido por un material visible, en cuyo caso deja de participar en la reacción en cadena y así termina su cadena de Márkov.

3. O puede chocar con otro átomo de uranio 235, provocando un evento de fisión y liberando dos o tres neutrones más que iniciarán sus propias cadenas.

Pero en esta cadena las probabilidades de transición no son fijas, dependen de factores como la posición, la velocidad y la energía del neutrón, así como la configuración y la masa totales del uranio. Así que un neutrón que se mueve rápidamente tendrá un 30% de probabilidad de dispersarse, un 50% de ser absorbido o salir y un 20% de causar fisión. Pero un neutrón más lento tendría diferentes probabilidades.

Después ejecutaron esta cadena en la primera computadora científica del mundo, la ENIAC, creada por Von Neumann. La computadora comenzó generando aleatoriamente las condiciones iniciales de un neutrón y se desplazó a través de una cadena para llevar un registro de cuántos neutrones se producían en promedio por ejecución, conocido como el factor de multiplicación K. Si, en promedio, un neutrón produce otros dos neutrones, entonces K es igual a 2. Y si, en promedio, cada dos neutrones producen tres neutrones, entonces K es igual a 3 entre 2, y así sucesivamente.

Luego, después de recorrer toda la cadena durante un número específico de pasos, recogió el valor promedio de K y lo registró en un histograma. Este proceso se repitió cientos de veces y los resultados se sumaron proporcionando una distribución estadística del resultado. Si resulta que en la mayoría de los casos K es menor que 1, la reacción se extingue. Si es igual a 1, hay una reacción en cadena autosostenida, pero no crece. Y si K es mayor que 1, la reacción crece exponencialmente y tienes una bomba.

Con esto, Von Neumann y Ulam tenían un método estadístico para determinar cuántos neutrones se producían sin necesidad de realizar cálculos exactos. En otras palabras, podían aproximar ecuaciones diferenciales que eran demasiado difíciles de resolver de forma analítica. Ahora lo que faltaba era un nombre para el nuevo método.

El tío de Ulam era apostador y el muestreo aleatorio y las apuestas altas le recordaban a Ulam el casino de Montecarlo en Mónaco, y el nombre les gustó. Así nació el método de Montecarlo.

El método tuvo tanto éxito que no se mantuvo en secreto por mucho tiempo. A finales de 1948, en otro laboratorio, Argón, en Chicago, los científicos lo utilizaron para estudiar diseños de reactores nucleares y a partir de ahí la idea se propagó rápidamente. Ulam comentó más tarde: "Aún me sorprende ver como unos cuantos garabatos en un pizarrón pudieron cambiar el curso de los asuntos humanos."

Y no sería la última vez que un método basado en las cadenas de Márkov cambiara el curso de los asuntos humanos: en 1993, Internet se abrió al público, y muy pronto se disparó. A mediados de la década de 1990 aparecían miles de páginas nuevas diariamente y el número solo crecía. Esto generó un nuevo problema: cómo encontrar algo en un mar de información que siempre está creciendo.

En 1994, dos estudiantes de doctorado en Stanford, Jerry Yang y David Filo, crearon Yahoo, un motor de búsqueda para solucionar el problema; pero necesitaban dinero, por lo que un año más tarde concertaron una cita con el millonario japonés Masayoshi Son, también conocido como "el Bill Gates de Japón".

Querían recaudar 5 millones de dólares para su emprendimiento, pero Son tenía otros planes. Les ofreció invertir 100 millones de dólares. Eso era 20 veces más de lo que los fundadores pidieron. Así que Jerry Yang lo rechazó diciendo que no necesitaban tanto. Pero Son no estaba de acuerdo: "Jerry, todos necesitan 100 millones de dólares." Antes de que los empresarios pudieran responder, Son intervino de nuevo y preguntó: "¿Quiénes son sus mayores competidores?"

"Excite y Lycos", respondieron los dos. Son ordenó a su socio que anotase esos nombres, y luego dijo: "Si no me dejan invertir en Yahoo!, invertiré en uno de ellos y los destruiré." Y es que Son se dio cuenta de algo: ninguno de los principales motores de búsqueda de entonces tenía una tecnología superior. No tenían una ventaja tecnológica sobre los otros. Solo clasificaban las páginas según la frecuencia en que aparecía un término buscado en alguna página. Así que la batalla por ser el motor de búsqueda número uno se decidía por quién podía atraer más usuarios, quién podía gastar más en marketing.

Y el marketing requería mucho dinero, dinero que Son tenía, por lo que podía decidir quién ganaba la guerra. Los fundadores de Yahoo! se dieron cuenta de que no les quedaba otra opción más que aceptar la inversión de Son.

Estamos aquí, justo en el centro de Yahoo! y en 4 años Yahoo! se convirtió en el sitio más popular del planeta. En el tiempo que toma decir esta frase, Yahoo! responderá a 79.00 solicitudes de información en todo el mundo. Los dos hombres ahora valen 120 millones de dólares cada uno.

Pero Yahoo! tenía una debilidad crítica.

La búsqueda por palabras clave de Yahoo! era fácil de engañar. Para lograr que tu página apareciera en los primeros lugares, podías repetir las palabras clave cientos de veces, ocultándolas con texto blanco sobre un fondo blanco. Peter Norvig (de Google): "Algo que no había en esa época era una noción de calidad de resultado. Había una idea de relevancia de si el documento hablaba sobre el tema que te interesaba, pero realmente no había una noción de cuáles eran mejores." Lo que en verdad necesitaban era una forma de clasificar las páginas por relevancia y calidad. Pero, ¿cómo se mide la calidad de una página web?

Para entender eso, tenemos que tomar prestada una idea de las bibliotecas. Peter Norvig: "Recuerdo cuando los libros de la biblioteca tenían una tarjeta con los sellos de todas las fechas de cuando había que devolverlos. Si tomabas un libro y tenía muchos sellos, podías pensar que era un buen libro y si no tenía ninguno, decías: tal vez este no sea el mejor." Los sellos servían como aprobación. Mientras más sellos, mejor debía ser el libro y la misma idea se puede aplicar a la web. En Stanford, dos estudiantes de doctorado, Sergey Brin y Larry Page estaban trabajando en este mismo problema. Brin y Page se dieron cuenta de que cada enlace a una página podía considerarse como una aprobación, y cuantos más enlaces envía una página, menos valioso se vuelve cada voto.

De lo que se dieron cuenta es de que se puede modelar la web como una cadena de Márkov. Para ver cómo funciona esto, imagina un Internet de juguete con solo cuatro páginas web, llamémoslas Amy, Ben, Chris y Dan. Estas son nuestros estados.

Normalmente, una página web enlaza a otras permitiéndote mover entre ellas. Estas son nuestras transiciones.

En este escenario, Amy solo enlaza a Ben, por lo que hay un 100% de probabilidad de ir de Amy a Ben. Ben enlaza a Amy, Chris y Dan, así que hay un 33% de probabilidad de ir a cualquiera de esas páginas y podemos completar las otras probabilidades de transición de la misma forma. Ahora podemos ejecutar esta cadena de Márkov y ver qué pasa. Imagina que estás navegando en esta red. Comienzas en una página al azar, digamos Amy, y continúas ejecutando la máquina y vas registrando el porcentaje de tiempos que pasas en cada página.

Con el tiempo, la proporción se estabiliza y las puntuaciones nos dan una medida de la importancia relativa de estas páginas. Pasas más tiempo en Ben, así que Ben se clasifica en primero seguido por Amy, luego Dan y por último Cris. Puede parecer una forma fácil de ganarle al sistema. Solo haz 100 páginas que se enlacen a tu sitio web y así vas a tener 100 votos y siempre vas a estar hasta arriba.

Pero no sucede así. Aunque en un principio pueden hacer que tu página parezca importante, no hay otros sitios web que se enlacen a ellos, así que después de un tiempo sus contribuciones no importan. Podrías tener muchos enlaces, pero no son enlaces de calidad, por lo que no afectan al algoritmo. Pero aún hay un problema: no todas las páginas están conectadas. En redes como esta una navegación aleatoria puede quedar atrapada en un bucle, sin llegar nunca al resto de la web.

Para solucionar esto, podemos establecer una Regla, en la que el 85% del tiempo nuestro internauta aleatorio siga un enlace de manera normal, pero luego durante aproximadamente el 15% del tiempo salte una página al azar. Este factor de amortiguamiento asegura que exploremos todas las partes posibles de la web sin quedarnos atrapados.

Al utilizar cadenas de Márkov, Page y Brin construyeron un motor de búsqueda mejorado y lo llamaron Page Rank. Peter Norvig: "Porque tiene que ver con cómo interactúan las páginas web entre sí y también porque el nombre del fundador es Larry Page, así que lo coló." Con Page rank se obtuvieron mucho mejores resultados de búsqueda, a menudo llevándote al sitio que buscabas de un solo intento. Aunque para algunos esto sonaba como una pésima idea. Peter Norvig: "Otros dijeron: ¿me estás diciendo que la búsqueda los va a llevar al resultado correcto en la primera respuesta? Yo no quiero eso, porque si les lleva tres o cuatro intentos de búsqueda llegar a donde quieren, tengo tres o cuatro intentos de mostrar anuncios, y, si les das la respuesta de inmediato, simplemente los voy a perder. No, no le veo lo bueno a esta mejor búsqueda."

Pero Page y Brin no estaban de acuerdo: estaban convencidos de que si su producto era muy superior la gente correría a él. Sergéi Brin: "Yo diría que es una democracia que funciona. Si todas las páginas fueran iguales, cualquiera podría crear tantas páginas como quisiera. Yo podría configurar 1000 millones de páginas en mi servidor mañana. No deberíamos tratarlas a todas igual. Revisando los datos por seguridad, descubrimos que teníamos la tecnología para hacer una mejor búsqueda; y nos dimos cuenta del impacto de una búsqueda eficiente."

Y en 1998 lanzaron su nuevo motor de búsqueda para competir con Yahoo. Inicialmente lo llamaron Backr por los enlaces entrantes que analizaba, pero se dieron cuenta de que tal vez ese no era el nombre más atractivo. Su ambición era enorme y querían indexar todas las páginas de internet y necesitaban un nombre igual de grande. Así que pensaron en el número más grande que se les ocurrió, 10 elevado a la potencia de 100, un Googol. Pero entonces, al intentar registrar su dominio, lo escribieron mal sin querer y así nació Google.

En los siguientes 4 años, Google derrocó a Yahoo para convertirse en el motor de búsqueda más utilizado. "Casi todos los que conocen Internet conocen Google. Para los adolescentes googlear es como respirar. Y hoy Alphabet, la empresa matriz de Google, tiene un valor aproximado de 2 billones de dólares. Cuando Google realiza el más mínimo cambio en sus algoritmos, el efecto puede ser enorme. Google, Google, Google, Google. Están en su mejor momento y la razón es porque están concentrados y están más concentrados que Yahoo, que hace búsquedas, más que Microsoft, que realiza búsquedas con Bing. Yahoo tiene mucho tráfico, siempre lo ha tenido, tiene algunas cualidades realmente buenas, pero no creo que Yahoo sea el lugar a la que la gente acude." (Rocco Pendola y otros)

Y en el centro de este algoritmo de un billón de dólares hay una cadena de Márkov que lo único que hace es observar el estado actual para predecir lo que sucederá después. Pero en la década de 1940, Claude Shannon, el padre de la Teoría de la información, comenzó a hacerse una pregunta distinta. Volvió a la idea original de Markov de predecir texto, pero en lugar de usar solo vocales y consonantes, se centró en letras individuales y se preguntó si en lugar de mirar solo la última letra como predictoria, veía las dos últimas. Con eso obtuvo un texto que se veía así. No tiene mucho sentido, pero se reconocen algunas palabras como whey, of y the.

Pero Shannon estaba seguro de poder hacerlo mejor, así que en lugar de ver letras, pensó en qué pasaría si usara palabras enteras como predictores. Eso le dio frases como esta: "La cabeza y en un ataque a un escritor inglés que el carácter de este punto es, por lo tanto, otro método para las letras que el tiempo de quien sea que haya dicho el problema para un inesperado."

Obviamente, esto no tiene sentido, pero Shannon notó que secuencias de unas cuatro palabras normalmente sí tienen sentido.

Por ejemplo, ataque a un escritor inglés tiene cierto sentido. Shannon descubrió que se pueden hacer predicciones cada vez más precisas sobre cuál será la siguiente palabra al considerar cada vez más las palabras anteriores. Es, más o menos, lo que hace Gmail cuando predice lo que vas a escribir a continuación. Y esto no es una coincidencia. Los algoritmos que realizan estas predicciones se basan en cadenas de Markov. Brian Hayes: "No necesariamente usan letras, usan lo que llaman tokens. Algunos de ellos son letras, algunos son palabras, signos de puntuación, etcétera. Es un conjunto más grande que el alfabeto. El juego es simple: tenemos esta cadena de tokens que podría tener 30 de largo, y preguntamos cuáles son las probabilidades de que el siguiente token sea este".

Pero los modelos extensos de lenguaje actuales no tratan a todos esos tokens por igual, porque a diferencia de las cadenas de Márkov simples, también utilizan algo llamado atención que le indica al modelo a qué debe prestar atención. Entonces, en la frase "la estructura de la célula" el modelo puede utilizar el contexto previo como sangre y mitocondrias para saber qué célula probablemente se refiere a la biología en lugar de a un grupo de personas y utiliza eso para ajustar su predicción.

Pero a medida que los modelos extensos de lenguaje se vuelven más comunes, una preocupación es que el texto que producen termine en Internet y eso se convierta en información de entrenamiento para futuros modelos. Brian Hayes: "Cuando comienzas a hacer eso, el juego termina muy pronto. En este caso, llegas a un estado muy aburrido y estable. Simplemente repite lo mismo una y otra vez. Los modelos de lenguaje son vulnerables a este proceso." Y cualquier sistema como este con bucle de retroalimentación se volverá difícil de modelar usando cadenas de Márkov.

Tomemos el calentamiento global como ejemplo. Al incrementarse el dióxido de carbono en el aire, la temperatura promedio de la Tierra aumenta. Pero, a medida que la temperatura aumenta, la atmósfera puede contener más vapor de agua, que es un gas de efecto invernadero increíblemente poderoso. Y, con más vapor de agua, la temperatura aumenta, permitiendo que haya todavía más vapor de agua. Se produce un bucle de retroalimentación positiva que dificulta predecir lo que sucederá a continuación.

Entonces hay sistemas en los que las cadenas de Márkov no funcionan; pero para muchos otros sistemas dependientes ofrecen una forma de calcular probabilidades.

Lo fascinante es que todos estos sistemas tienen historias extremadamente largas. Podrías rastrear todas las letras de un texto, rastrear todas las interacciones que tuvo el neutrón o rastrear el clima durante semanas. Pero lo hermoso que Markov es que para muchos de estos sistemas puedes ignorar casi todo eso. Puedes solo observar el estado actual y olvidarte del resto. Eso hace que estos sistemas sean sin memoria. Y esta cualidad de no tener memoria es lo que hace que las cadenas de Markov sean poderosas, porque es lo que permite tomar estos sistemas extremadamente complejos y simplificarlos mucho para seguir haciendo predicciones significativas. Como se expresó en un artículo de Ölle Häggström (17-1-2007), resolver problemas a menudo consiste en idear la cadena de Márkov adecuada. Brian Hayes: "Me parece un poco ridículo que este hecho básico de las matemáticas surgiera de una disputa así, que no tenía nada que ver con eso; pero todo indica que fue realmente esa determinación de superar a Nekrásov lo que llevó a Márkov a hacerlo." Pero hay una pregunta que todavía no hemos respondido.

Al jugar al solitario, ¿cómo sabía Ulam que sus cartas estaban perfectamente barajadas? Es decir, ¿cuántas veces hay que barajar para obtener una disposición de las cartas completamente aleatoria?

-Si tienes un mazo de cartas, necesitas barajarlo, ¿verdad?

-Okay.

-¿Cuántas veces si lo barajas, ya sabes, lo divides por la mitad y luego haces barajado americano, cuántas veces tienes que barajarlo para que sea totalmente aleatorio?

-Dos.

-¿Dos?

-Voy a decir 26.

-Cuatro veces. No sé.

-52.

-Okay, okay, tiene sentido. Siete, son siete.

-¿En serio?

-Sí. Se puede pensar que barajar cartas es como una cadena de markov donde cada disposición del mazo es un estado y cada que se baraja es un paso. Así que para un mazo de 52 cartas, si las barajas con rifle siete veces, entonces cada disposición del mazo es casi igual de probable. Así que básicamente es aleatorio. Pero yo no puedo barajar así. Lo que yo hago es algo así (barajado de arrastre). ¿Cuántas veces creen que hay que barajar así para que sea aleatorio? ¿Tú qué piensas? y. quizás más importante, ¿cómo crees que lo resolverías?

-Así que, Casper, dinos cuál es la respuesta.

-Son más de 2.000 veces. ¿Qué? Más qué loco, ¿no?

Así que la próxima vez que alguien ofrezca barajar antes de un juego, asegúrate de que lo haga bien. Si mezclas o no, cuenta. Pero la parte interesante no es solo saber eso, sino entender por qué y ver cómo una pregunta simple puede llevarte a unas matemáticas sorprendentemente complejas y de eso se trata.

Blog de Ángel Romera

jueves, 28 de mayo de 2026

Márkov, padre del texto predictivo y de la IA

No hay comentarios:

Publicar un comentario

Datos personales