Entradas

¿Qué es RDF? Aquí tienes la respuesta al término RDF que cada vez verás más y cuya importancia cobra peso día a día, utiliza el estándar RDF para expresar conceptos y relaciones, une sujetos, predicados y acciones con facilidad y de forma extensible y reutilizable: abre tu información a sistemas distribuidos.

Traducción y adaptación al Español del original en Inglés por Joydeep Bhattacharya 30 de octubre 2013

Google ha puesto en marcha la búsqueda semántica en su algoritmo principal por la reciente introducción de Hummingbird. Este es un cambio extraordinario y uno de los más grandes tras Caffeine. Muchos webmasters y comerciantes de Internet todavía sienten cierta confusión respecto a esta nueva tecnología. En este post, voy a tratar de aclarar esta confusión explicando la búsqueda semántica y cómo Google implementa la semántica para predecir la intención buscadores con el fin de mostrar los resultados o devolver respuestas basadas en ellos.

¿Qué es la semántica ?

Semántica implica la búsqueda de la relación entre palabras, frases, símbolos y el significado que conllevan. Implica además el estudio de la lingüística, la sintaxis, la etimología, la comunicación, la semiótica, etc.

La búsqueda semántica

La búsqueda semántica consiste en el estudio y la aplicación de la semántica en la tecnología de búsqueda con el fin de averiguar la verdadera intención que se oculta tras la consulta de búsqueda del usuario y la presentación de las respuestas o un conjunto de resultados que se relaciona estrechamente con lo que el usuario está buscando. Tiene en cuenta la importancia del contexto e identifica una relación adecuada entre los términos utilizados en la consulta de búsqueda antes de presentar los resultados de la búsqueda final.

¿De dónde se aplica ?

Los motores de búsqueda utilizan la semántica para devolver resultados relevantes a la consulta. Consultas ambiguas (aquellas consultas que tienen más de un significado) se descomponen y se procesan a través de un conjunto de palabras predefinidas que ayudan a los motores de comprender el contexto real de la consulta. El uso de la semántica se aplica en las consultas relacionadas con la investigación en que el usuario está buscando respuestas en lugar de navegar a una página web específica. Google aplica la semántica en su Knowledge Graph.

Page Rank y la Relevance Score dos factores básicos para la clasificación de documentos

Google aplica dos factores básicos para juzgar la importancia y relevancia de cualquier página web antes de clasificarlos. Estos factores son el Page Rank ( para medir la popularidad mediante el análisis de la relación con el entorno de los vínculos) y la relevancia (mediante el análisis del uso de palabras clave o buscar términos de consulta utilizados en la página web). Sin embargo, esta forma de clasificación de documentos no ayuda a encontrar esas páginas que pueden ser de interés para la intención de los investigadores (léase “usuarios”) ya que el factor de popularidad puede reducir la clasificación de documentos semánticamente pertinentes. Esta es la razón por la que Google utiliza la semántica para identificar y priorizar los rankings de páginas que tienen contenido semánticamente relevante y no sólo basándose en contar las palabras clave y enlaces entrantes para el análisis de cualquier página web.

Procesar una consulta en un entorno semántico

En la figura siguiente se describen los pasos a seguir en el proceso de la consulta por parte de Google. La consulta de búsqueda que recibe Google se analiza para identificar uno o más miembros (primer y segundo términos de búsqueda). En este proceso consigue identificar sinónimos u otros términos de sustitución. Los sinónimos son conocidos como sinónimos candidatos y aún se descomponen y se procesan como sinónimos calificados. Entonces un motor de relación se utiliza para identificar la relación entre los miembros sobre la base de sus respectivos dominios. Aquí un dominio simplemente es una categoría central de palabras similares (los conocidos como keyword clusters). En primer término de búsqueda queda identificado por el primer dominio que es una categoría semántica que tiene una colección de entidades predefinidas. Del mismo modo, el segundo término queda identificado por un segundo dominio que contiene también una base de datos de entidades similares. Esto ayuda a Google a relacionar los términos con las identidades que resulten más cercanas (un punto fundamental a tener en cuenta aquí es que Google sólo encontrará y relacionará palabras en la consulta con los ya presentes en su base de datos , que es la gráfica del conocimiento o Knowledge Graph, por lo tanto, algunas consultas, aunque semánticamente similares podrían no aparecer). Una búsqueda separada queda a cargo de un motor de consulta con relación de coincidencia de dominio (no confundir con el dominio de la palabra con el “nombre de dominio”, aquí “dominio” significa “categoría”) y el resultado final queda mostrado después de que se identifica una consulta semántica (el motor de búsqueda puede pluralizar o reformular la consulta si es necesario). Por lo tanto, en palabras simples, una consulta compleja introducida por el usuario se descompone y se simplifica con la participación de varios procesos en búsqueda semántica. A partir de entonces , las páginas web de interés se identifican y se muestran como un conjunto final de resultados.

Muchos SEOs y Marketeers en Internet a menudo pierden la parte crucial de la identificación de las consultas relacionadas semánticamente al hacer investigación de palabras clave, porque la consulta principal se descompone en consulta semántica antes de ser procesado por Google. Por lo tanto, aumenta la probabilidad de clasificación cuando el contenido de la página web está escrito teniendo en mente las variantes semánticas que contemplan todas las entidades que coincidan con dominios específicos (Nota de traducción/aclaración: usar familias de significado cercano, transversalidad, en vez de repeticiones verticales de keywords).

Colibrí y la semántica

Hummingbird es un cambio en el algoritmo de búsqueda que utiliza varios factores que ayuda a iniciar la conversación con el buscador y proporciona respuestas reales a las consultas en lugar de devolver documentos que corresponden a la palabra clave. Este es el sueño del Googler Amit Singhal ( vicepresidente senior y director de Búsqueda de Google), que quería construir un motor de búsqueda en plan Star Trek que devuelve respuestas directas a los usuarios para que Google puede ser utilizado como un asistente personal en lugar de un motor de búsqueda. En sus palabras, el destino de la búsqueda es llegar a ser el equipamiento de Star Trek, un asistente perfecto al tu lado. Hummingbird tiene que ver con la conversación y las consultas long tail suelen participar en la conversación. Además, durante la conversación que incluya una o más entidades y aquí es donde Knowledge Graph y la semántica entran. El punto crucial es que Google ha adaptado su algoritmo de búsqueda para manejar consultas complejas y conversacionales introducidas por el usuario. Se ha utilizado la semántica y el Graph para llegar a un conocimiento mucho más profundo de lo que se ha utilizado en el pasado. Como he mencionado antes, no hay que clasificar Hummingbird como factor de clasificación, es un cambio para mejor comprensión de una consulta de búsqueda. Las señales de clasificación documental siguen siendo los mismos Panda , Penguin , etc, que son todos partes del algoritmo principal, que ahora es el colibrí. Factores como la Autoridad de dominio, Page Rank, popularidad social, la relevancia global de contenido, Tf -IDF Score (del inglés Term frequency – Inverse document frequency en relación, no sudes, mira en Wikipedia), la edad del dominio, Google Authorship, uso de MetaData etc todo contribuye a la clasificación de un documento específico. Pero, sin duda podemos utilizar este nuevo modelo para adaptar nuestro contenido existente adaptado a la forma en que una consulta resulta analizada e identificada.

Como se muestra en el siguiente ejemplo, una consulta de conversación como ¿Cuántos años tiene Justin Bieber? devuelve una respuesta directa junto a un gráfico del Conocimiento. En este caso, Justin Bieber es una entidad que Google ha identificado con la ayuda del gráfico de Conocimiento (Knowledge Graph) y predijo con exactitud la respuesta para la consulta del usuario.

Consulta basada en preguntas conversacionales en vez de cadenas de texto específicas

Consulta semántica conversacional, el usuario pregunta en vez de proponer una cadena de texto como consulta.

Hummingbird tiene en cuenta la semántica e identifica la relación entre las consultas de búsqueda que tienen la ayuda de Knowledge Graph antes de presentar los resultados de la búsqueda. Un buen punto a destacar aquí es que la semántica no es nueva para Google y el gigantesco motor de búsqueda ha estado utilizando la semántica por un tiempo bastante largo, pero faltaba una base de datos detallada de la relación de Entidades que podrían ayudar a facilitar la identificación de las entidades. Después de la introducción de la gráfica de conocimiento el 16 de Mayo 2012, Google ya pudo decir que había añadido esa base de datos de Entidades que podría resolver rápidamente el problema de encontrar relación entre las entidades. Por lo tanto, Hummingbird basado en el Knowledge Graph es el nuevo modelo semántico de Google.

 

La Web semántica acumula datos sin parar, esta presentación muestra como extraer datos mediante consultas SPARQL y ofrece fuentes de estudio.

El rumor de compra sobre Tripadvisor

En el ITB de Berlín y los pasillos virtuales de redes sociales el rumor de moda implicaría la posible compra (muy cara sería vista la evolución de Tripadvisor en bolsa)

Evolución de Tripadvisor en índice NASDAQ

Evolución de Tripadvisor en índice NASDAQ

No me extrañaría.
Google ha demostrado en el pasado su voraz apetito por fuentes de inspiración, talento, tecnologías emergentes y contrastación: me baso en los dos últimos ejemplos para dar peso (en mi opinión) al rumor que cimenta este artículo de Esther.

Google compró Metaweb por su tecnología de agrupación de información en cubos semánticos, unas entidades cuya simple definición ya suponía una genialidad para categorizar y relacionar las piezas de información. ¿Por qué? Para prepararse antes del advenimiento de la Web 3.0 (esto es, al despliegue masivo y adopción de contenidos y aplicaciones/servicios por parte de “las masas”).

Google compró Advaark y creó vark.com, una exitosa y tecnológicamente potente plataforma de preguntas y respuestas sociales (Social Q/A) que a diferencia de otras era “perfiladora”, la usé en su momento en un experimento de captación 1 a 1 y la efectividad fue 7 de 10. Increíble, lastima que han descontinuado el experimento al disponer ya de su genuina plataforma social Google+ más “todo lo otro”.

Google anda loco intentando contrastar sus algoritmos con fuentes de autoridad externas para promocionar entre sus resultados de búsqueda aquellos de mayor calidad; inventaron el Pagerank y se aprendió a manipularlo, inventaron el nofollow y se aprendió a manipularlo, presionaron a Wikipedia para señalar con el dedo a “los buenos” como mínimo…

…Y es en esta última opción donde ubico la movida Tripadvisor: una fuente de autoridad para nicho turístico gracias a las notas y valoraciones de los usuarios, una vez más resulta irónico ver como se enriquecen cuatro cracks a la salud de este nuestro ejército de monos tecleantes (yo, mono y encima calvo!) que creó la Web 2.0, donde prima el contenido y sus múltiples refritos, mashups para los más cool, y toda la capa social que no es más que más de lo mismo, UGCs o negocios basados en la generación de contenido por parte de los usuarios, donde los usuarios son el producto en sí. Vaya, voy a terminar que estoy perdiendo foco.

¿Crees tú que Google acabará comprando Tripadvisor? ¿Por qué?

[button link=”https://www.seofreelance.es/seo-outsourcing-servicios-seo/” size=”small” style=”note” text=”dark”]Servicios SEO – Catálogo[/button]