Google y el comienzo del fin del «long tail» de la web
Gran parte de la riqueza de internet está en su llamado «long tail«, en millones de páginas pequeñas, especializadas, actualizadas por comunidades y autores que no salen en los rankings, pero que sostienen su diversidad informativa. Más del 90% de las consultas y palabras clave pertenecen a esa larga cola, lo que convierte a toda esa periferia en el auténtico tejido conectivo de la red.
Actualmente, este tejido se está cerrando para el entrenamiento de los modelos generativos. El mes pasado, Google eliminó el parámetro de búsqueda que mostraba cien resultados en la página de resultados de la búsqueda (SERP), cambio sutil y silencioso. Ahora, el máximo de resultados que podemos ver es de diez.
Parte del cierre del tejido conectivo de la red, se supone que es una defensa legítima frente a abusos, pero otra parte, parece más bien un simple cerrojazo de la plataforma. Y con él, Google está impidiendo el acceso de algoritmos de terceros a ese long tail, sesgando así el mercado de LLMs (Large Language Model)
El principal inconveniente de esto es que los crawlers de los LLMs utilizan casi siempre los resultados de las búsquedas de Google además de las suyas propias. Esto implica que Google se acaba de cargar el 90% de los resultados en los que esos LLMs se basaba.
El segundo problema viene del caos de los bots que ignoran reglas, y que ha empujado a muchísimos sitios a bloquear, en sus robots.txt, más y mejor, sin matices. Sobre todo tras las investigaciones que pillaron a Perplexity camuflando sus user-agents y saltándose los robots.txt y los WAF. Ese endurecimiento corta el acceso de LLMs, pero castiga a los que no controlan el canal de búsqueda ni poseen acuerdos de licencia masivos.
Además, el mecanismo Google-Extended permite a los editores bloquear el uso de su contenido para Gemini sin penalización directa en ranking, pero otras rutas de uso vinculadas a Search, como los resúmenes tipo AI Overviews, quedan fuera de ese control. Para muchos, la única defensa es cerrar a todo lo que pueda relacionarse con inteligencia artificial. Esto perjudica a los LLMs que no son de Google y no tanto a ésta última. La separación incompleta entre «índice de búsqueda» y «datos para IA» incentiva un bloqueo indiscriminado que termina afectando sobre todo a los rivales.
Si dejamos que el acceso a la larga cola de la web se cierre por diseño, el futuro de los LLMs será menos diverso, más dependiente de acuerdos bilaterales y más favorable para quien tiene el poder sobre la plataforma. En cualquier manual serio de competencia, esto debería ser motivo de investigación por dar a entender un comportamiento anticompetitivo.
Fuente: bit.ly/4eww89im


