Traducción y adaptación al Español del original en Inglés por Joydeep Bhattacharya 30 de octubre 2013
Google ha puesto en marcha la búsqueda semántica en su algoritmo principal por la reciente introducción de Hummingbird (Colibrí). Este es un cambio extraordinario y uno de los más grandes tras Caffeine. Muchos webmasters y comerciantes de Internet todavía sienten cierta confusión respecto a esta nueva tecnología. En este post, voy a tratar de aclarar esta confusión explicando la búsqueda semántica y cómo Google implementa la semántica para predecir la intención de búsqueda con el fin de mostrar los resultados o devolver respuestas basadas en ellos.
¿Qué es la semántica ?
Semántica implica la búsqueda de la relación entre palabras, frases, símbolos y el significado que conllevan. Implica además el estudio de la lingüística, la sintaxis, la etimología, la comunicación, la semiótica, etc.
La búsqueda semántica
La búsqueda semántica consiste en el estudio y la aplicación de la semántica en la tecnología de búsqueda con el fin de averiguar la verdadera intención que se oculta tras la consulta de búsqueda del usuario y la presentación de las respuestas o un conjunto de resultados que se relaciona estrechamente con lo que el usuario está buscando. Tiene en cuenta la importancia del contexto e identifica una relación adecuada entre los términos utilizados en la consulta de búsqueda antes de presentar los resultados de la búsqueda final.
¿De dónde se aplica ?
Los motores de búsqueda utilizan la semántica para devolver resultados relevantes a la consulta. Consultas ambiguas (aquellas consultas que tienen más de un significado) se descomponen y se procesan a través de un conjunto de palabras predefinidas que ayudan a los motores de comprender el contexto real de la consulta. El uso de la semántica se aplica en las consultas relacionadas con la investigación en que el usuario está buscando respuestas en lugar de navegar a una página web específica. Google aplica la semántica en su Knowledge Graph.
Page Rank y la Relevance Score dos factores básicos para la clasificación de documentos
Google aplica dos factores básicos para juzgar la importancia y relevancia de cualquier página web antes de clasificarlos. Estos factores son el Page Rank ( para medir la popularidad mediante el análisis de la relación con el entorno de los vínculos) y la relevancia (mediante el análisis del uso de palabras clave o buscar términos de consulta utilizados en la página web). Sin embargo, esta forma de clasificación de documentos no ayuda a encontrar esas páginas que pueden ser de interés para la intención de los investigadores (léase «usuarios») ya que el factor de popularidad puede reducir la clasificación de documentos semánticamente pertinentes. Esta es la razón por la que Google utiliza la semántica para identificar y priorizar los rankings de páginas que tienen contenido semánticamente relevante y no sólo basándose en contar las palabras clave y enlaces entrantes para el análisis de cualquier página web.
Procesar una consulta en un entorno semántico
En la figura siguiente se describen los pasos a seguir en el proceso de la consulta por parte de Google. La consulta de búsqueda que recibe Google se analiza para identificar uno o más miembros (primer y segundo términos de búsqueda). En este proceso consigue identificar sinónimos u otros términos de sustitución. Los sinónimos son conocidos como sinónimos candidatos y aún se descomponen y se procesan como sinónimos calificados. Entonces un motor de relación se utiliza para identificar la relación entre los miembros sobre la base de sus respectivos dominios. Aquí un dominio simplemente es una categoría central de palabras similares (los conocidos como keyword clusters). En primer término de búsqueda queda identificado por el primer dominio que es una categoría semántica que tiene una colección de entidades predefinidas. Del mismo modo, el segundo término queda identificado por un segundo dominio que contiene también una base de datos de entidades similares. Esto ayuda a Google a relacionar los términos con las identidades que resulten más cercanas (un punto fundamental a tener en cuenta aquí es que Google sólo encontrará y relacionará palabras en la consulta con los ya presentes en su base de datos , que es la gráfica del conocimiento o Knowledge Graph, por lo tanto, algunas consultas, aunque semánticamente similares podrían no aparecer). Una búsqueda separada queda a cargo de un motor de consulta con relación de coincidencia de dominio (no confundir con el dominio de la palabra con el «nombre de dominio», aquí «dominio» significa «categoría») y el resultado final queda mostrado después de que se identifica una consulta semántica (el motor de búsqueda puede pluralizar o reformular la consulta si es necesario). Por lo tanto, en palabras simples, una consulta compleja introducida por el usuario se descompone y se simplifica con la participación de varios procesos en búsqueda semántica. A partir de entonces , las páginas web de interés se identifican y se muestran como un conjunto final de resultados.
Muchos SEOs y Marketeers en Internet a menudo pierden la parte crucial de la identificación de las consultas relacionadas semánticamente al hacer investigación de palabras clave, porque la consulta principal se descompone en consulta semántica antes de ser procesado por Google. Por lo tanto, aumenta la probabilidad de clasificación cuando el contenido de la página web está escrito teniendo en mente las variantes semánticas que contemplan todas las entidades que coincidan con dominios específicos (Nota de traducción/aclaración: usar familias de significado cercano, transversalidad, en vez de repeticiones verticales de keywords).
Colibrí y la semántica
Hummingbird es un cambio en el algoritmo de búsqueda que utiliza varios factores que ayuda a iniciar la conversación con el buscador y proporciona respuestas reales a las consultas en lugar de devolver documentos que corresponden a la palabra clave. Este es el sueño del Googler Amit Singhal (vicepresidente senior y director de Búsqueda de Google), que quería construir un motor de búsqueda en plan Star Trek que devuelve respuestas directas a los usuarios para que Google puede ser utilizado como un asistente personal en lugar de un motor de búsqueda. En sus palabras, el destino de la búsqueda es llegar a ser el equipamiento de Star Trek, un asistente perfecto al tu lado. Hummingbird tiene que ver con la conversación y las consultas long tail suelen participar en la conversación. Además, durante la conversación que incluya una o más entidades y aquí es donde Knowledge Graph y la semántica entran. El punto crucial es que Google ha adaptado su algoritmo de búsqueda para manejar consultas complejas y conversacionales introducidas por el usuario. Se ha utilizado la semántica y el Graph para llegar a un conocimiento mucho más profundo de lo que se ha utilizado en el pasado. Como he mencionado antes, no hay que clasificar Hummingbird como factor de clasificación, es un cambio para mejor comprensión de una consulta de búsqueda. Las señales de clasificación documental siguen siendo los mismos Panda , Penguin, etc, que son todos partes del algoritmo principal, que ahora es el colibrí. Factores como la Autoridad de dominio, Page Rank, popularidad social, la relevancia global de contenido, Tf -IDF Score (del inglés Term frequency – Inverse document frequency (Nota: mira en Wikipedia), la edad del dominio, Google Authorship, uso de MetaData etc todo contribuye a la clasificación de un documento específico. Pero, sin duda podemos utilizar este nuevo modelo para adaptar nuestro contenido existente adaptado a la forma en que una consulta resulta analizada e identificada.
Como se muestra en el siguiente ejemplo, una consulta de conversación como ¿Cuántos años tiene Justin Bieber? devuelve una respuesta directa junto a un gráfico del Conocimiento. En este caso, Justin Bieber es una entidad que Google ha identificado con la ayuda del gráfico de Conocimiento (Knowledge Graph) y predijo con exactitud la respuesta para la consulta del usuario.

Google Hummingbird – Consulta semántica conversacional, el usuario pregunta en vez de proponer una cadena de texto como consulta.
Hummingbird tiene en cuenta la semántica e identifica la relación entre las consultas de búsqueda que tienen la ayuda de Knowledge Graph antes de presentar los resultados de la búsqueda. Un buen punto a destacar aquí es que la semántica no es nueva para Google y el gigantesco motor de búsqueda ha estado utilizando la semántica por un tiempo bastante largo, pero faltaba una base de datos detallada de la relación de Entidades que podrían ayudar a facilitar la identificación de las entidades. Después de la introducción de la gráfica de conocimiento el 16 de Mayo 2012, Google ya pudo decir que había añadido esa base de datos de Entidades que podría resolver rápidamente el problema de encontrar relación entre las entidades.
Por lo tanto, Hummingbird basado en el Knowledge Graph es el nuevo modelo semántico de Google.