Logo Computerhoy.com

¿Cómo funciona un motor de búsqueda en Internet? La filtración del código fuente de Yandex lo deja claro

¿Cómo funciona un motor de búsqueda en Internet?, la filtración del código fuente de Yandex tiene algunas respuestas
Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Redactora de Tecnología

La filtración del código fuente del motor de búsqueda ruso Yandex, abre la veda para que todo tipo de interesados y programadores se sumerjan en sus entresijos y descubran alguna que otra cosa bastante llamativa.

Algunos medios informaron la semana pasada que un repositorio de código fuente del motor de búsqueda Yandex había sido supuestamente robado por un antiguo empleado de la compañía tecnológica rusa y lo había filtrado como Torrent en un popular foro de hacking.

Hablamos de 44,7 GB de archivos robados a la empresa en julio de 2022. Estos repositorios de código contienen supuestamente todo el código fuente de la empresa, además de las normas antispam. En un comunicado, Yandex declaró que una investigación inicial mostró que el código filtrado "parece ser fragmentos antiguos que difieren de la versión actual del repositorio de la compañía".  

El investigador de seguridad Arseniy Shestakov afirma que los archivos expuestos se remontan a febrero de 2022, coincidiendo con la invasión rusa de Ucrania. Aunque Shestakov dijo que los archivos filtrados incluían el código fuente de una serie de servicios, no contienen datos sensibles de los usuarios. 

Como decimos, el repositorio filtrado sólo contiene código. La otra parte importante como los pesos del modelo para redes neuronales están ausentes, así que es casi inútil. Aun así, hay muchos archivos interesantes con nombres como "blacklist.txt" que podrían exponer servicios en funcionamiento.

Yandex

Pese a esto, el movimiento, en pocas palabras, no tiene precedentes y eso que a todos nos faltan más datos e información al respecto, pero por primera vez se pueden ver los entresijos de un motor de búsqueda. Esto nos abre un gran espacio para adentrarnos en este oscuro mundo de Yandex, al menos actualmente, y así explicarte, si aún no lo conoces, en qué consiste este motor de búsqueda.

¿Qué es Yandex?

Bien, vayamos a la base de todo para poder adentrarnos en la cuestión que hoy nos atañe. Yandex es una empresa rusa de tecnología conocida por la creación de su motor de búsqueda Yandex. Según Statcounter, Yandex tenía una cuota de mercado del 39,6 % en Rusia, frente al 57,9 % de Google en julio de 2020. 

Yandex se utiliza para buscar como los demás motores de búsqueda como Google o Bing: introduces la consulta, pulsas enter y aparecerán un montón de resultados. Según un estudio, Yandex genera el 52 % del tráfico web en Rusia. Además, este creció en popularidad cuando los teléfonos Android rusos decidieron dejar de usar Google como motor de búsqueda predeterminado en 2017.

Yandex

Eso sí, aunque funciona como la mayoría de los motores de búsqueda convencionales, hay algunas diferencias clave que distinguen a Yandex de otros competidores como Google. 

Por ejemplo, Yandex hace más hincapié que Google en el SEO local y la regionalidad y realiza búsquedas geodependientes que sólo muestran sitios web de una región específica. Esto significa que a personas de diferentes lugares se les mostrarán resultados distintos para el mismo término de búsqueda.

SEO en Google

Por otro lado, el comportamiento de los usuarios, así como el tiempo de permanencia, es un factor clave de clasificación para Yandex. Aunque Google también lo tiene en cuenta, se trata de un factor crítico para una buena clasificación en Yandex. 

Finalmente y aunque la creación de enlaces sigue siendo importante, se trata más de dirigir tráfico relevante a su sitio que de demostrar la potencia o fiabilidad del mismo. La antigüedad del dominio y la fecha de creación desempeñan un papel más importante en el posicionamiento en Yandex, así que puedes encontrar mucho contenido obsoleto. 

Algunas conclusiones extraídas de Yandex tras la filtración de su código

Hemos querido extraer algunas de las conclusiones que más nos han llamado la atención. Eso sí, si quieres echarle un ojo al artículo por completo, te dejamos la fuente enlazada de Search Engine.

Por un lado, destacar que este motor de búsqueda tiene límites superiores anti-SEO para algunos factores de clasificación y 39 de estos factores de clasificación forman parte de los factores ponderados inicialmente que pueden impedir que una página se incluya en la lista inicial de publicaciones.

Esto es algo que muchos motores de búsqueda como Bing incorporan. Por ejemplo, este potencia el uso abusivo de las meta keywords como factor negativo, pero parece que Yandex les supera con creces.

Yandex

Por otro lado, se sugiere que hay determinados parámetros que se benefician más del algoritmo de refuerzo que otros, lo que se conoce como "boosting". 

Por ejemplo, mencionan que los archivos más pequeños entran dentro y, lo que más llama la atención, Yandex da un boost que sesga sus resultados a ciertas organizaciones de noticias y da un boost a quienes desea en su posicionamiento.

¿Código racista en la base del código de Yandex? 

Otro de los puntos más llamativos de este caso de filtración, es el del posible uso de código racista en su base. Y es que, aquellos que han podido revisarlo, han visto insultos racistas por toda la base de código filtrada de Yandex. 

Para que comprendas cómo esto es posible, explicarte que los programadores suelen utilizar términos o nombres específicos para que otros desarrolladores puedan entender qué función o acción realiza una determinada línea de código.

Esto les ayuda a que, si tienen que modificar o actualizar código, puedan reducir el tiempo necesario de búsqueda. En este caso, los desarrolladores de Yandex parecen haber sustituido un término genérico para una función por un lenguaje ofensivo.

No está claro por qué se incluyeron exactamente estos términos. Sin embargo, el uso de lenguaje ofensivo en el código es una violación de las buenas prácticas y, como Yandex señaló en su declaración, contra su código de ética.  

Yandex no proporcionó información adicional sobre por qué ha utilizado determinadas palabras malsonantes, pero aquellos que se han adentrado se dieron cuenta de que también parecía haberse utilizado para sustituir a "trabajadores" en varias partes de su código base. Desde luego, toda una reliquia para aquellos que están interesados en este y otros motores de búsqueda.

Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Redactora de Tecnología

Redactora de Tecnología, especializada en inteligencia artificial y ciberseguridad.

Conoce cómo trabajamos en Computerhoy.