Phrase identification in an information retrieval system

I sistemi di IR finora usati dai più grandi motori di ricerca si sono sempre basati sull'acquisizione di contenuti e documenti di testo tramite algoritmi in grado di riconoscere i temi trattati da un documento usando le singole parole contenute: da un documento, eliminate le stopwords, si acquisiscono le parole che formano il documento e si classifica qust'ultimo in base alla rilevanza delle parole all'interno del testo.

Il processo non è assolutamente così semplice come l'ho descritto sopra, ma rende l'idea degli attuali processi per la ricerca e il recupero delle informazioni di un documento di testo in una grande collezione di documenti come il web.

Il gigante californiano di Mountain View, ultimamente, ha rilasciato una serie di 5 brevetti che potrebbero cambiare l'attuale sistema di information retrieval, cambiando così non solo il sistema di indicizzazione dei documenti, ma anche il sistema di ranking e di ordinamento dei risultati, un processo di IR che andrebbe a rivoluzionare l'attuale mondo SEO: l'indicizzazione per frasi.

Il primo brevetto di Google della serie si intitola Phrase identification in an information retrieval system.

Abstract

"Un sistema di IR che usa frasi per indicizzare, recuperare, organizzare e descrivere documenti. Le frasi identificate predicono la presenza di altre frasi nel documento. I documenti vengono indicizzati in accordo alle frasi che includono. Le frasi correlate e l'estensione delle frasi sono anch'esse definite. Frasi in una query sono identificate e usate per recuperare e valorizzare i documenti. Le frasi sono anche usate per raggruppare i documenti nei risultati delle ricerche, creare le descrizioni dei documenti ed eliminare documenti duplicati dai risultati e dall'indice."

Di seguito leggiamo le traduzioni dei claims del brevetto:

1. Un metodo di selezione documenti in un insieme in risposta ad una query, che comprende: ricevimento della query, idenfitifcazione di una pluralità di frasi nella query, dove minimo una frase è formata da più parole, identificazione dell'estensione di almeno una delle frasi identificate, e selezione dei documenti dall'insieme di documenti che contengono almeno una frase dall'insieme includendo frasi nella query e nell'estensione della frase.

2. Il metodo chiamato al punto 1, dove la selezione dei documenti comprende: combinazione di una "posting list" di un frase identificata e una "posting list" dell'estensione della frase identificata per formare una "posting list" combinata; selezione dei documenti che appaiono nella "posting list" combinata e nelle"posting list"di altre frasi identificate.

3. Un metodo di selezione documenti in una raccolta di documenti in risposta ad una query, comprendendo: ricevimento della query, identificazione di una frase incompleta nella query, rimpiazzo della frase incompleta con l'estensione della frase e selezione documenti dalla raccolta contenente l'estensione della frase.

4. Il metodo chiamato al punto 3, dove l'identificazione della frase incompleta e il suo rimpiazzo comprende: identificazione di una frase candidata nella query, corrispondenza della frase candidata ad una frase incompleta in una lista di frase incomplete e rimpiazzo della frase
candidata con l'estensione della frase associata con la frase incompleta.

5. l metodo chiamato al punto 3, dove un estensione della frase di una frase incompleta comprende una super sequenza di frasi
incomplete che comincia con la frase incompleta.

6. Un metodo di selezione documenti in una raccolta in risposta ad una query, che comprenda: ricevimento di una query includendo la prima e la seconda frase, recupero della "posting list" dei documenti contenente la prima frase; per ogni documento nella lista: accesso alla lista indicando frasi correlate della prima frase che sono presenti nel documento, e sensible a reagire alla lista della frase correlata indicando che la seconda frase è presente in un documento, selezionando il documento da includere nel risultato di una query, senza richiamare una "posting list" di documenti contenenti la seconda frase.

7. Il metodo chiamato al punto 6, comprendente inoltre: sensibile a reagire alla lista delle frasi correlate che indicano che la seconda frase non è presente in un documento, escludendo il documento dai risultati della query, senza recuperare una "posting list"di documenti contenenti la seconda frase.

8. Il metodo chiamato al punto 6, comprendente: in risposta alla lista delle frasi correlate indicando che la seconda frase non è una frase correlata alla prima, intersecando la "posting list"dei documenti per la prima frase e con una "posting list" di documenti per la seconda frase per selezionare i documenti contenenti sia la prima che la seconda frase.

9. Il metodo chiamato al punto 6, comprendente inoltre: archiviazione delle liste di frasi correlate per una prima frase in rispetto ad un documento in un vettore di bit, dove un bit del vettore è regolato per ogni frase correlata alla prima frase che è presente nel documento, e un bit del vettore è rimosso per ogni frase correlata alla prima frase che non è presente nel documento, dove il vettore di bit ha un valore numerico, e valorizzando il documento selezionato determinando un valore adattato del vettore in accordo con l'insieme di bit per le frasi correlate alla prima frase che sono presenti nel documento.

10. Un metodo di ordinamento dei documenti inclusi nei in un risultato di una ricerca in risposta ad una query, dove la query comprende minimo una frase di ricerca, comprendendo: per ogni documento nel risultato di ricerca, accedendo al vettore di frase correlate per una frase di ricerca, dove in ogni bit del vettore è indicata la presenza, o l'assenza, di una frase correlata alla frase di ricerca; e ordinando i documenti nei risultati delle ricerche con il valore del loro vettore di frasi correlate, in modo che il documento con il più alto valore del vettore di frasi correlate è ordinato più in alto nei risultati delle ricerche.

11. Il metodo del punto 10, dove ogni bit del vettore di frasi correlate è associato con un frase correlata della frase di ricerca; e i bit sono ordinati cosicchè il più significativo bit del vettore è associato con una frase correlata avendo una più estesa informazione guadagnata in rispetto alla frase di ricerca, e il bit meno significativo è associato con una frase correlata avendo la minore informazione appresa in rispetto alla frase di ricerca.

12. Un metodo di ordinamento dei documenti inclusi nei risultati di ricerca in risposta ad una query, dove la query comprende al meno una frase di ricerca: per ogni documento nel risultato di ricerca: accedendo al vettore di frasi correlate per una frase della query, dove in ogni bit del vettore è indicata la presenza o assenza di una frase correlata alla frase di ricerca; per ogni bit indicando la presenza di una frase correlata della frase di ricerca, aggiungendo un predeterminato numero di punti associati con il bit per valorizzare un documento, e ordinando i documenti nei risultati di ricerca tramite il loro punteggio.

13. Il metodo al punto 12, dove ogni bit del vettore di frasi correlate è associato con una frase correlata alla frase di ricerca; i bit sono ordinati cosicchè il bit più significativo del vettore è associato con una frase correlata avendo la più estesa informazione guadagnata in rispetto alla frase di ricerca, e il bit meno significativo associato con una frase correlata avendo la minore informazione guadagnata in rispetto alla frase di ricerca; e il predeterminato numero di punti è associato con ogni serie di bit dal maggior numero di punti associati con i bit più significativi fino al minor numero di punti
associati con il bit meno significativo.

14.Un metodo per fornire un sistema di ir: automaticamente identificando frasi valide in un insieme di documenti comprendendo una pluralità di documenti, dove le frasi valide contengono frasi con più parole; indicizzando i documenti in accordo con le frasi valide contenute nei documenti, ricevendo una query di ricerca; identificando frasi contenute nella query, selezionando documenti in accordo alle frasi identificate, e ordinando i documenti selezionati
in accordo alle frasi identificate.

Posted in Phrase based searching in IRS | Phraserank printer-friendly version | 4849 reads

Submitted by Motori-e-Ricerca on Mon, 2007-02-19 10:21.

Cerca con Google

Google
Web motoriericerca.com

Syndicate

XML feed

User login