Paratexto

El dilema de la relevancia en internet: del PageRank al filtro burbuja

Nota: El siguiente texto surge de una sesión teórica de grado, en la que debatimos sobre el impacto social y cultural de internet y sus algorítmos. He simplificado algunos argumentos para adaptarlos a este formato, por lo que no pretende ser un análisis exhaustivo.

Captura desde 2026-03-21 00-31-11

Desde los inicios de internet, ha existido un problema fundamental: la gestión de la sobreabundancia de información. La democratización de las tecnologías de la información y la comunicación, así como la llegada de las páginas web, los blogs y otros espacios de creación en la red, acarrearon un importante caos informativo que exigía desesperadamente ser ordenado.

Si viajamos al pasado, los primeros intentos para domesticar la cacofonía que era internet consistieron en imitar las lógicas del mundo analógico. Así nacieron los directorios, unas bibliotecas digitales mantenidas por humanos que se dedicaban a clasificar los sitios web por categorías y temáticas. Eran la versión digital de los tradicionales "listines" telefónicos.

En ese primer internet, los directorios eran el punto de inicio para casi todos los usuarios, y también la única herramienta para encontrar o descubrir información. Como ya os imagináis, eran rudimentarios y primitivos. Pero sus mecánicas eran fácilmente reconocibles, al clonar lógicas de tecnologías ya existentes. El gran acierto del formato "directorio" fue dar continuidad y construir un puente entre dos mundos que todavía no se habían fusionado: el analógico y el digital.

what-as-your-first-geocities-website-about-v0-wb3zffy5sghf1 (1) Imagen: Página principal de Yahoo.com.

Los editores humanos de estos directorios tenían una doble responsabilidad. Por un lado, gestionar las peticiones de los sitios web para ser listados y, por otro, debían decidir si dicha página web merecía realmente ocupar un espacio en el directorio. Así, estas personas ejercían una función de curadores, filtros o gatekeepers (según se quiera ver), decidiendo qué era relevante y qué no. Como podéis imaginar, la relevancia pronto pasó a ser algo que se podía comprar. Así, muchos directorios llegaron a ser negocios muy rentables antes del estallido de las puntocom (tema del que no hablaremos hoy).

El nacimiento de los buscadores

Google presentó su buscador al mundo a finales de 1998, pero no fue el primero. Antes existieron Archie (1990), WebCrawler (1994) o AltaVista (1995), solo por mencionar unos pocos. Los buscadores resolvían tres problemas fundamentales:

  1. Rastreaban internet con métodos automatizados para indexar todo lo existente, prescindiendo de la intervención humana.
  2. Tenían una mayor capacidad para alcanzar rincones de internet hasta ese momento inexplorados, inconexos o fragmentados.
  3. Ofrecían un método de ordenación distinto al de los directorios, introduciendo algoritmos primitivos que medían la relevancia del contenido en función de la concordancia con la búsqueda realizada.

Aunque los buscadores revolucionaron la red, su éxito trajo consigo un efecto colateral: el rastreo masivo y la indexación total multiplicaron exponencialmente la cantidad de información disponible. Esto, paradójicamente, aumentó todavía más la necesidad de determinar qué contenidos eran realmente relevantes, y complicó enormemente la situación.

Cada buscador trató de resolver el problema a su manera. Por ejemplo, WebCrawler (1994) introdujo un sistema de densidad de texto: si un usuario busca "cohetes espaciales", el resultado más relevante será aquel que contenga dicha frase el mayor número de veces. Lycos (1994) usaba un sistema de proximidad, fragmentando las palabras clave usadas en la búsqueda y observando diferentes combinaciones y apariciones en textos. Por último, Altavista (1995) otorgó pesos específicos a las palabras clave en función de la posición que ocupaban en una página web (título de página, en párrafos, en enlaces, etc.). Son, efectivamente, soluciones muy pobres si las comparamos con la complejidad algorítmica de hoy.

Como ahora sabemos, esta forma de medir la relevancia provocó el caos. Los webmasters descubrieron que podían engañar fácilmente a estos buscadores haciendo Keyword Stuffing (relleno de palabras clave). Estas técnicas dieron inicio a una disciplina profesional conocida como optimización de contenidos para motores de búsqueda (SEO), cuyo propósito no era otro que el de manipular los algoritmos de los buscadores para lograr posiciones de visibilidad ventajosas en los resultados de búsqueda. Esto, como ya sabemos, se traduce en una mayor afluencia de tráfico web y, por lo tanto, mayores ingresos por publicidad o ventas.

Algunos buscadores, como el de Ask (1996), trataron de frenar el fenómeno regresando al factor humano: resultados de búsqueda previamente preseleccionados por editores. Poco o nada se logró, hasta la llegada de Google.

¿Por qué Google era distinto?

735187395_230308519_1024x576 Imagen: Larry Page y Sergei Brin.

Sergey Brin y Larry Page, fundadores de Google, eran dos estudiantes de doctorado en Ciencias de la Computación en Stanford. Inspirados por el sistema de citas académicas, resolvieron la crisis de la relevancia cambiando completamente la pregunta. En lugar de plantear "¿Cuántas veces aparece la palabra "cohete" en la página?", Google, con su algoritmo PageRank preguntó: "¿Cuántas otras páginas dicen que esta página es sobre cohetes?".

Al usar los enlaces entrantes (referencias) como "votos de confianza", Google logró externalizar la métrica de relevancia y dificultar el fraude. La relevancia dejó de basarse solo en el texto interno para apoyarse sobre el consenso de la red. Esa fué la gran innovación y el elemento diferencial de Google. En el contexto de los años 2000, Google introdujo orden en un entorno informativo que tendía al caos.

El nacimiento del "Filtro burbuja"

El algoritmo usado por Google para determinar la relevancia de los contenidos evolucionó a lo largo de la primera década de los 2000. Pero, aproximadamente en 2009, inició su declive. En 2013, el concepto de PageRank había desaparecido completamente. La premisa que empujó a esta decisión fue simple: la relevancia no es universal para todos los usuarios. Las tecnologías vinculadas a la web habían evolucionado lo suficiente como para rastrear el comportamiento de los usuarios con gran exactitud, lo que a su vez permitía perfilar los gustos y preferencias de dichos usuarios y ofrecer contenidos personalizados en cada búsqueda.

Por otro lado, los profesionales de la optimización de posicionamiento web (SEO) habían protagonizado una carrera armamentística agotadora para manipular el algoritmo. La continua ingeniería inversa y todo el I+D+I de los SEO acabó provocando hartazgo en Google.

Así, Google abandonó progresivamente su sistema de relevancia "universal" (idénticas búsquedas arrojan idénticos resultados) para centrarse en un sistema donde cada resultado de búsqueda había sido personalizado para un usuario en específico: resultados de búsqueda basados en preferencias, historiales de navegación, ubicación, idioma, hora del día, tipo de navegador, dispositivo, etc. En definitiva, un modelo donde idénticas búsquedas no ofrecen el mismo resultado.

EliPariser Imagen: Eli Pariser.

En el año 2011, Eli Pariser publicó el libro "El Filtro Burbuja, lo que internet te esconde"1. La teoría, en esencia, describe el estado de aislamiento intelectual en el que pueden caer los usuarios cuando los algoritmos de los buscadores (como Google) seleccionan la información que verán basándose en su comportamiento previo e historial. Es decir: de algún modo, se establece que el modo en cómo Google selecciona y ordena los contenidos de internet, para posteriormente mostrarlos a los usuarios, tiene efectos negativos.

Estos procesos de selección de la información llevados a cabo por buscadores y plataformas de toda índole, ocurren de forma opaca y sin posibilidad de intervención humana. Se basan, como se ha dicho, en información que el sistema tiene sobre el usuario. Pariser afirma que el sistema tiende a ofrecer contenidos que guardan afinidad con el usuario, sin que este sea consciente del proceso o el grado de personalización de los resultados de búsqueda. Con esta capa de filtrado, el individuo pierde el acceso a puntos de vista alternativos, quedando encerrado y sometido a un sesgo informativo invisible, del que muchas veces no es consciente.

Por lo tanto, la teoría del filtro burbuja no se centra únicamente en lo que finalmente verá un usuario al realizar una búsqueda, sino también en el inevitable efecto "descarte" que tiene lugar durante este proceso de selección de la información. Ciertas noticias, páginas web, blogs, información o mensajes que podrían ser relevantes para el usuario se ocultan.

La destrucción de la realidad compartida

Imaginad abrir un diccionario y que, para una misma palabra, existieran diferentes definiciones, tantas como personas lo consultan. Muchas de estas definiciones podrían ser parecidas, otras idénticas, pero algunas totalmente opuestas. ¿Cómo podríamos dialogar entre nosotros? Parece absurdo, ¿verdad? Con el abandono del PageRank y la evolución hacia unos resultados de búsqueda personalizados y sesgados para cada usuario, Google da un paso peligroso hacia un territorio desconocido: los usuarios obtienen respuestas diferentes para una misma pregunta y se adentran en realidades informativas completamente distintas para un mismo hecho. Esto inevitablemente construye realidades diferenciadas, divergentes o enfrentadas.

Pariser afirma que esto es peligroso desde una perspectiva democrática, daña la posibilidad de debate público y dificulta los consensos. En definitiva: Google podría estar fomentando un escenario de polarización política, enfrentamiento y posiciones o perspectivas irreconciliables.

¿Como resolver el problema?

Seamos sinceros: es imposible ofrecer a los usuarios una perspectiva panorámica completa de la información disponible en la red sobre ciertos asuntos. Es técnica y humanamente imposible. Pensemos, por ejemplo, en cuántos periódicos digitales están narrando nuestro mundo en directo, generando noticias a cada minuto. ¿Cuál de ellos merece mayor visibilidad? ¿Qué medios deberían tener prioridad en los resultados de búsqueda? Este artículo de blog presenta este dilema: la imposibilidad de gestionar humanamente el torrente informativo que se produce en internet.

Existen algunas propuestas e ideas, que no vamos a detallar hoy. Merecen mención, sin embargo, aquellas que apuestan por un modelo que introduce los conceptos: Experiencia, Conocimiento, Autoridad y Confianza en el proceso de selección de las fuentes informativas. También hay quien apuesta por una diversidad programada, donde el buscador se ve obligado a introducir otras perspectivas que puedan ejercer fricción con el usuario.

Personalmente, la que más me gusta a mí, es la perspectiva que aboga por una alfabetización mediática potente desde los primeros años de escolarización. Es decir: enseñar, desde muy pequeños, a leer a los medios, contrastar la información, trabajar con una diversidad de fuentes, seleccionar fuentes confiables, y desarrollar una capacidad crítica y preventivamente escéptica frente a cualquier información.

Desmitificando el filtro burbuja ¿Realmente existen?

bruns Imagen: Axel Bruns.

La teoría del filtro burbuja tiene muchos detractores. El más notable de ellos es (posiblemente) Axel Bruns, académico de la Queensland University of Technology de Brisbane, quien publicó un libro desmitificando este asunto en 20192, e insistió en 20213.

El primer punto a considerar es, tal como apunta Bruns, que pese a que la teoría lleva muchos años circulando en entornos académicos y medios de comunicación, no existe evidencia científica empírica que demuestre los efectos descritos.

Segundo, consumir información de un determinado signo político o sesgo no es problemático "per se", sino algo natural: todos elegimos un medio de referencia conforme a nuestras afinidades. Esto ha ocurrido siempre, y es la razón por la que existe la pluralidad informativa: diferentes prismas o formas de interpretar los hechos dan como resultado diferentes medios de distinto signo político.

Tercero, el individuo nunca pierde la posibilidad de acceder a fuentes de información alternativas. Nada impide a los usuarios consultar libremente otros medios, contrastar la información o conversar con personas que aportan nueva información o complementan la ya existente. Los individuos, excepto en situaciones extremas, no viven aislados.

Cuarto y último, la alfabetización mediática ha alcanzado un punto en el que los usuarios son conscientes de los sesgos que imponen plataformas como Google. Ciertas informaciones son consultadas directamente en fuentes confiables, prescindiendo de resultados parciales o sesgados arrojados por un buscador.

Todas estas críticas, y muchas otras, desmontan los supuestos efectos negativos de los filtros burbuja, sin negar su existencia.

Referencias:

  1. Pariser, E. (2011). The filter bubble: What the Internet is hiding from you. penguin UK.

  2. Bruns, A. (2019). Are filter bubbles real?. John Wiley & Sons.

  3. Bruns, A. (2021). Echo chambers? Filter bubbles? The misleading metaphors that obscure the real problem. In Hate speech and polarization in participatory society (pp. 33-48). Routledge.