Entradas

Google Hummingbird | Análisis detallado de búsqueda semántica y su papel en el algoritmo Colibrí

Google Hummingbird o "Colibrí" es el nombre del último y gran cambio en su algoritmo de búsqueda

Traducción y adaptación al Español del original en Inglés por Joydeep Bhattacharya 30 de octubre 2013

Google ha puesto en marcha la búsqueda semántica en su algoritmo principal por la reciente introducción de Hummingbird. Este es un cambio extraordinario y uno de los más grandes tras Caffeine. Muchos webmasters y comerciantes de Internet todavía sienten cierta confusión respecto a esta nueva tecnología. En este post, voy a tratar de aclarar esta confusión explicando la búsqueda semántica y cómo Google implementa la semántica para predecir la intención buscadores con el fin de mostrar los resultados o devolver respuestas basadas en ellos.

¿Qué es la semántica ?

Semántica implica la búsqueda de la relación entre palabras, frases, símbolos y el significado que conllevan. Implica además el estudio de la lingüística, la sintaxis, la etimología, la comunicación, la semiótica, etc.

La búsqueda semántica

La búsqueda semántica consiste en el estudio y la aplicación de la semántica en la tecnología de búsqueda con el fin de averiguar la verdadera intención que se oculta tras la consulta de búsqueda del usuario y la presentación de las respuestas o un conjunto de resultados que se relaciona estrechamente con lo que el usuario está buscando. Tiene en cuenta la importancia del contexto e identifica una relación adecuada entre los términos utilizados en la consulta de búsqueda antes de presentar los resultados de la búsqueda final.

¿De dónde se aplica ?

Los motores de búsqueda utilizan la semántica para devolver resultados relevantes a la consulta. Consultas ambiguas (aquellas consultas que tienen más de un significado) se descomponen y se procesan a través de un conjunto de palabras predefinidas que ayudan a los motores de comprender el contexto real de la consulta. El uso de la semántica se aplica en las consultas relacionadas con la investigación en que el usuario está buscando respuestas en lugar de navegar a una página web específica. Google aplica la semántica en su Knowledge Graph.

Page Rank y la Relevance Score dos factores básicos para la clasificación de documentos

Google aplica dos factores básicos para juzgar la importancia y relevancia de cualquier página web antes de clasificarlos. Estos factores son el Page Rank ( para medir la popularidad mediante el análisis de la relación con el entorno de los vínculos) y la relevancia (mediante el análisis del uso de palabras clave o buscar términos de consulta utilizados en la página web). Sin embargo, esta forma de clasificación de documentos no ayuda a encontrar esas páginas que pueden ser de interés para la intención de los investigadores (léase “usuarios”) ya que el factor de popularidad puede reducir la clasificación de documentos semánticamente pertinentes. Esta es la razón por la que Google utiliza la semántica para identificar y priorizar los rankings de páginas que tienen contenido semánticamente relevante y no sólo basándose en contar las palabras clave y enlaces entrantes para el análisis de cualquier página web.

Procesar una consulta en un entorno semántico

En la figura siguiente se describen los pasos a seguir en el proceso de la consulta por parte de Google. La consulta de búsqueda que recibe Google se analiza para identificar uno o más miembros (primer y segundo términos de búsqueda). En este proceso consigue identificar sinónimos u otros términos de sustitución. Los sinónimos son conocidos como sinónimos candidatos y aún se descomponen y se procesan como sinónimos calificados. Entonces un motor de relación se utiliza para identificar la relación entre los miembros sobre la base de sus respectivos dominios. Aquí un dominio simplemente es una categoría central de palabras similares (los conocidos como keyword clusters). En primer término de búsqueda queda identificado por el primer dominio que es una categoría semántica que tiene una colección de entidades predefinidas. Del mismo modo, el segundo término queda identificado por un segundo dominio que contiene también una base de datos de entidades similares. Esto ayuda a Google a relacionar los términos con las identidades que resulten más cercanas (un punto fundamental a tener en cuenta aquí es que Google sólo encontrará y relacionará palabras en la consulta con los ya presentes en su base de datos , que es la gráfica del conocimiento o Knowledge Graph, por lo tanto, algunas consultas, aunque semánticamente similares podrían no aparecer). Una búsqueda separada queda a cargo de un motor de consulta con relación de coincidencia de dominio (no confundir con el dominio de la palabra con el “nombre de dominio”, aquí “dominio” significa “categoría”) y el resultado final queda mostrado después de que se identifica una consulta semántica (el motor de búsqueda puede pluralizar o reformular la consulta si es necesario). Por lo tanto, en palabras simples, una consulta compleja introducida por el usuario se descompone y se simplifica con la participación de varios procesos en búsqueda semántica. A partir de entonces , las páginas web de interés se identifican y se muestran como un conjunto final de resultados.

Muchos SEOs y Marketeers en Internet a menudo pierden la parte crucial de la identificación de las consultas relacionadas semánticamente al hacer investigación de palabras clave, porque la consulta principal se descompone en consulta semántica antes de ser procesado por Google. Por lo tanto, aumenta la probabilidad de clasificación cuando el contenido de la página web está escrito teniendo en mente las variantes semánticas que contemplan todas las entidades que coincidan con dominios específicos (Nota de traducción/aclaración: usar familias de significado cercano, transversalidad, en vez de repeticiones verticales de keywords).

Colibrí y la semántica

Hummingbird es un cambio en el algoritmo de búsqueda que utiliza varios factores que ayuda a iniciar la conversación con el buscador y proporciona respuestas reales a las consultas en lugar de devolver documentos que corresponden a la palabra clave. Este es el sueño del Googler Amit Singhal ( vicepresidente senior y director de Búsqueda de Google), que quería construir un motor de búsqueda en plan Star Trek que devuelve respuestas directas a los usuarios para que Google puede ser utilizado como un asistente personal en lugar de un motor de búsqueda. En sus palabras, el destino de la búsqueda es llegar a ser el equipamiento de Star Trek, un asistente perfecto al tu lado. Hummingbird tiene que ver con la conversación y las consultas long tail suelen participar en la conversación. Además, durante la conversación que incluya una o más entidades y aquí es donde Knowledge Graph y la semántica entran. El punto crucial es que Google ha adaptado su algoritmo de búsqueda para manejar consultas complejas y conversacionales introducidas por el usuario. Se ha utilizado la semántica y el Graph para llegar a un conocimiento mucho más profundo de lo que se ha utilizado en el pasado. Como he mencionado antes, no hay que clasificar Hummingbird como factor de clasificación, es un cambio para mejor comprensión de una consulta de búsqueda. Las señales de clasificación documental siguen siendo los mismos Panda , Penguin , etc, que son todos partes del algoritmo principal, que ahora es el colibrí. Factores como la Autoridad de dominio, Page Rank, popularidad social, la relevancia global de contenido, Tf -IDF Score (del inglés Term frequency – Inverse document frequency en relación, no sudes, mira en Wikipedia), la edad del dominio, Google Authorship, uso de MetaData etc todo contribuye a la clasificación de un documento específico. Pero, sin duda podemos utilizar este nuevo modelo para adaptar nuestro contenido existente adaptado a la forma en que una consulta resulta analizada e identificada.

Como se muestra en el siguiente ejemplo, una consulta de conversación como ¿Cuántos años tiene Justin Bieber? devuelve una respuesta directa junto a un gráfico del Conocimiento. En este caso, Justin Bieber es una entidad que Google ha identificado con la ayuda del gráfico de Conocimiento (Knowledge Graph) y predijo con exactitud la respuesta para la consulta del usuario.

Consulta basada en preguntas conversacionales en vez de cadenas de texto específicas

Consulta semántica conversacional, el usuario pregunta en vez de proponer una cadena de texto como consulta.

Hummingbird tiene en cuenta la semántica e identifica la relación entre las consultas de búsqueda que tienen la ayuda de Knowledge Graph antes de presentar los resultados de la búsqueda. Un buen punto a destacar aquí es que la semántica no es nueva para Google y el gigantesco motor de búsqueda ha estado utilizando la semántica por un tiempo bastante largo, pero faltaba una base de datos detallada de la relación de Entidades que podrían ayudar a facilitar la identificación de las entidades. Después de la introducción de la gráfica de conocimiento el 16 de Mayo 2012, Google ya pudo decir que había añadido esa base de datos de Entidades que podría resolver rápidamente el problema de encontrar relación entre las entidades. Por lo tanto, Hummingbird basado en el Knowledge Graph es el nuevo modelo semántico de Google.

 

Videos SEO

Videos SEO | Penguin 2.0

Penguin 2.0 ¿Tormenta de Verano o Invierno Nuclear?

Video SEO de los que marcan época, literalmente, bastantes webs quejumbrosas pueden florecer y algún que otro campeón caer de su pedestal. Según Matt no habrá debacle, pero eso ya se dijo antes ¿Verdad?

[youtube=http://www.youtube.com/watch?feature=player_embedded&v=xQmQeKU25zg&w=640&h=385]

 

Pingüinos en Verano: llega Penguin 2.0

Enlaces de interés

,

Tendencias SEO 2013 | Co-citation y Co-ocurrence

[dropcap3]E[/dropcap3]ste artículo de Bill Slawski (SEO by the Sea) desarrolla en tono crítico/complementario la última White Board Friday de Rand Fishkin (SEOmoz), intentando aclarar conceptos recuperados del pasado (2006) y aplicados a las nuevas tendencias, tal vez de forma incompleta o confusa. La idea clara es que “Google parece ir más allá del Anchor text” en su valoraciones para incluir consultas que si bien no predominan como palabra clave en las páginas que consiguen posicionar para esas consultas, resultan un factor correctivo positivo al ser mencionadas en el cuerpo de otras páginas que enlazan a la que posiciona “sin querer”.

[box type=”alert” size=”large” style=”rounded” border=”full”]Interesante el concepto de Reranking: cuando una categoría para una consulta y una categoría para una página coinciden puede promocionarse un resultado de búsqueda en base al grado de dicha coincidencia.[/box]

En resumen y ejemplo a mi criterio:

Se obtiene valor si tu página no lucha por Tendencias SEO 2013 pero a)recibe links con ese anchor text y /o b)recibe links con otro anchor text desde páginas relevantes para Tendencias SEO 2013 y/o c)se menciona explícitamente tu página en páginas indexadas y relevantes para “Tendencias SEO 2013”

[ilink url=”http://www.seobythesea.com/2012/11/not-all-anchor-text-is-equal-other-co-citation-observations/” style=”tick” icon=”https://www.seofreelance.es/favicon.ico”]Not All Anchor Text is Equal and other Co-Citation Observations[/ilink]