Episodio 4. La historia de Google y el SEO

En este capítulo les contaré el origen de Google y su algoritmo de ordenación de los resultados de la web.

Entender esta historia nos permite analizar los objetivos del buscador y su influencia para el SEO de nuestras páginas webs.

Ya llevamos 3 episodios publicados y el feedback ha sido maravilloso.

Gracias a todas las personas que me han hecho llegar críticas constructivas para mejorar.

Quiero hacer más dinámico este podcast, hablar de términos del mundo SEO de forma divertida e interesante. Es un proceso de mejora continua y por ello introduzco pequeños cambios en cada episodio.

Tener feedback es maravilloso para mejorar y crecer.

Para esta semana, recibí unos excelentes consejos de Ana Cirujano, una persona que admiro mucho, que da unas charlas maravillosas de tipografía y diseño que si están metidos en el mundo WordPress seguro conocen. ¡Gracias Ana!

Sergey Brin (de origen ruso) y Lawrence Page, también Larry Page, eran estudiantes de la Universidad de Stanford y publican en 1998, un artículo que sienta las bases de lo que será Google.

El artículo se titula: «The Anatomy of a large-scale hypertextual web search engine«. En español: La anatomía de un motor de búsqueda web a gran escala. Les dejo el artículo original porque vale la pena su lectura.

Larry y Sergey eran estudiantes de postgrado y en 1996 el nombre del buscador original (sus primeras versiones) era BackRub, pero en 1997 lo cambian por Google inspirados por el término matemático Gúgol del número 10 elevado a la potencia de 100, en referencia a la inmensa labor de organizar la información en internet.

El resto de la historia de Google ya lo conocen porque hemos crecido con ellos.

¿Quién no utiliza gmail? ¿Google maps? ¿Drive? ¿No ha visto un vídeo de YouTube?

Han crecido como la espuma con una inmensa cantidad de servicios y aplicaciones, que han evolucionado, algunas cerrado, pero tienen una hegemonía increíble a nivel internacional, su cuota de uso se sitúa en el 80% de los internautas (fuente: Statcounter.com)

En la actualidad es una empresa multinacional con el nombre de Alphabet Inc en la que Google es la principal subsidiaria, pero sus tentáculos llegan desde la internet, software, dispositivos, biotecnología, salud, domótica, etc. Vamos, que están en todos los saraos.

Para entender las bases informáticas que sustenta un buscador hay que retomar una disciplina o campo de estudio increíble y avanzado que es: Information search and retrieval o búsqueda y recuperación de la información.

Es un campo de estudio fascinante donde se mezclan investigaciones de la psicología cognitiva, arquitectura de la información, lingüística, semántica, informática, biblioteconomía.

Como señala la entrada en Wikipedia:

“Es la ciencia de la información en documentos electrónicos”.

Muchos de los ingenieros detrás del algoritmo de Google están formados en ese campo en la Universidad de Stanford.

De hecho, se ha liberado la edición del libro: “An introduction to Information Retrieval” que pueden descargar en el link.

Es una lectura «densa de carallo» (¡esto es un podcast recordad! 😉 ), sobre todo la parte de las matemáticas, pero que vale la pena, si queremos entender los fundamentos detrás de la obtención de información, que manejan los buscadores.

Yo lo revisé pero definitivamente, no es una lectura para ir a dormir, ni para todos los mortales. Requiere conocimientos de datos estructurados y algoritmos, álgebra lineal y teoría de la probabilidad, aspectos que se nos escapan a la mayoría.

El hecho es que en el artículo que les mencioné al inicio del podcast, se presentan los fundamentos de su algoritmo de indexación y ordenación de los resultados de la web. Pero se podrían preguntar: ¿qué es rastreo? ¿qué es indexación? Pues se los aclararé.

¿En qué consiste un buscador como Google?

Un algoritmo está conformado por 3 elementos:

Un crawler o programa informático que va rastreando la información de la web, el código fuente de las páginas.
Una base de datos, donde almacena el buscador la información.
Un algoritmo (que en realidad son muchos interconectados) que organizan la información y te la dan ordenada en función de la relevancia y la autoridad de la página web.

Siempre que explico este tema, lo comparo con una biblioteca que recibe libros de las editoriales. El bibliotecario o bibliotecaria, recibe el ejemplar e introduce toda la información del libro en su base de datos: título, autor, género, descripción, portada, número de páginas, etc. El proceso de rastreo e indexación es similar.

En el artículo, Larry y Sergei explican que su intención es:

«Rastrear e indexar la web de la forma más eficiente».
Sergey Brin y Lawrence Page

En otros sitios han explicado, que lo que busca Google es: «organizar la información del mundo». ¿Mi madriña, suena fácil no?

Para alcanzar estos objetivos se necesitaba una mejora de la tecnología de rastreo:

Tenían que ser más rápidos
Almacenar la información de una forma más eficaz
Ofrecer mayor precisión de los resultados, de lo que buscadores como Altavista y Yahoo ofrecían en ese momento.

¿Cómo mejorar la precisión de los resultados de un buscador? El valor del page rank

Consiguieron mejorar los resultados gracias a un concepto: el uso de la estructura de links para calcular la calidad y el valor del ranking de cada página web.

Si sabes cómo funciona un artículo científico, lo entenderás bien.

Un artículo se basa en un índice numérico que es el «citation flow» o índice de citación. Si tu artículo es mencionado en diversas fuentes, significa que debe ser más relevante y aumenta con ello su «zumo de popularidad» o «zumo de links» como señala siempre Fernando Maciá.

Pues aquí es similar, y se inventaron un concepto que seguro habrás escuchado que es: Page Rank concepto fundamental dentro del establecimiento de un valor numérico (la “tasación” de Google) de nuestra web, que nos obsesionaba en los comienzos del SEO.

Todos teníamos una extensión de chrome que te daba ese número y la obsesión era subir ese valor.

Todos olvidamos ese valor, pensando que Google ya no lo utiliza, pero en realidad, lo que no hacen es dar el valor públicamente. Ellos lo siguen utilizando internamente.

En su artículo explican que no todos los links son iguales y nos dan la fórmula de cálculo de page rank.

“Asumimos que la página (A) tiene de T1… TN páginas que apuntan a ella (citas). El parámetro d es un factor de amortiguamiento (damping factor) que se puede establecer entre 0 y 1, establecemos d en 0.85”
PR (A) = (1-d) + d (PR (T1) / C (T1) + … + PR (Tn) / C (Tn))
Sergey Brin y Lawrence Page

Lo importante de la fórmula es un factor de amortiguamiento que utilizan y que es un poco complejo que se llama: Damping factor.

¿Qué es el damping factor?

Es un factor numérico que nos permite entender la transmisión de PageRank o “zumo de links” de una página A a una página B. Al final, les dejo todos los cálculos y teoría si quieren profundizar.

Lo que quiero que os quedéis es que un link es importante, y no solo los que recibes de otras webs, sino tus propios links ayudan a los buscadores a entender mejor tu web.

Recordar que los crawler o arañitas solo se pueden mover en tu web a través de los links.

Tomando en cuenta entonces que: Google busca «organizar la información del mundo» y que dedican un tiempo y energía en entender tu web, es lógico pensar que si se lo ponemos fácil, nos beneficia.

Recordad que sus arañitas son muy rápidas, pero no muy inteligentes. Ellas buscan hacer un rastreo rápido, barato y eficaz, no profundo ni buscan entender de filosofía.

Por ello, mis dos primeros capítulos se basaron en dos archivos muy claves para este proceso: el robots.txt y los sitemaps.xml.

La semana que viene les hablaré de volver a las bases del SEO: nuestra estrategia, nuestra esencia, nuestras palabras claves.

Les daré el primer capítulo sobre estudio de keywords, porque es un tema muy extenso que nos dará para varios programas. Así que atención y ojo a los capítulos futuros.

Gracias por acompañarme. Si te gusta, comparte, me ayudará a llegar a más personas.

¡Larga vida y prosperidad a WordPress!

Recursos finales:

Ya escribí sobre este tema del origen de Google y el Page Rank, en mi otro blog, con un artículo dedicado a un curso de SEO técnico que tuve el placer de asistir en Dublin.
En ese artículo menciono el excelente artículo de César Aparicio de: ¿Qué es el damping factor en SEO? y otro post sobre los cálculos del PageRank muy recomendada la lectura.
Patente de Google detallada por Bill Slawski: «Google’s Reasonable Surfer» donde explica que no todos los links son iguales.

Muchas gracias a Unsplash por la imagen destacada que acompaña este podcast. Photo by Rob Curran on Unsplash

2 comentarios en «Episodio 4. La historia de Google y el SEO»

JULIO

febrero 14, 2019 a las 10:42 am

Gracias por compartir tu conocimiento en un podcast (aunque lo he leído)
y poner algo de luz a los lego en temas de SEO. Aunque es un tema que me interesa mucho, voy a lo práctico.
Pero saber el por qué sucede tal o cual cosa y su historia es muy interesante.
En buena hora por la iniciativa
Responder
- Wajari Velásquez
  
  febrero 21, 2019 a las 12:16 pm
  
  Muchísimas gracias Julio. Para mi una alegría que pases por aquí y dejes tu comentario.
  
  Efectivamente la historia es interesante, ya que así entendemos el escenario global.
  
  Habrán otros episodios que irán más al grano. Voy puliendo el calendario editorial en ese sentido, buscando diversidad en las temáticas, así que gracias por el feedback 😉
  
  Nos vemos pronto por Madrid. ¡Un abrazo!
  Responder

¿En qué consiste un buscador como Google?

¿Cómo mejorar la precisión de los resultados de un buscador? El valor del page rank

¿Qué es el damping factor?

2 comentarios en «Episodio 4. La historia de Google y el SEO»

Deja un comentario Cancelar la respuesta

Pin It on Pinterest