Sommario del brevetto

[0014] Un sistema e una metodologia di IR che usa frasi per indicizzare, ricercare, ordinare e descrivere documenti in un insieme di documenti. Il sistema è adatto per identificare frasi che hanno sufficientemente frequenza e/o uso distinto in un insieme di documenti per indicare che esse sono "valide" o "buone" frasi. In questo modo frasi di più parole, per esempio frasi di 4, 5, o più termini, possono essere identificate. Questo evita il problema di identificare e indicizzare ogni possibile frase risultante da tutte le possibili sequenze di un dato numero di parole.

[0015] Il sistema è anche adatto per identificare frasi che sono correlate l'una all'altra, basandosi sull'abilitità di una frase di predire la presenza di un'altra frase nel documento. Più specificatamente, si usa una misura di predizione in relazione all'attuale grado di co-occorrenza di due frasi verso un aspettato grado di co-occorrenza delle due frasi. L'ottenimento dell'informazione, come la percentuale dell'attuale grado di co-occorrenza per aspettarsi il grado di co-occorrenza, è una misura di predizione. Due frasi sono correlate dove la misura di predizione supera una predeterminata soglia. In questo caso, la seconda frase ha un guadagno significativo dalle informazioni riguardo alla prima frase. Semanticamente, saranno frasi correlate quelle che sono comunemente usate per discutere e descrivere un dato tema o un concetto, come "presidente degli stati uniti" e "casa bianca". Per una data frase, le frasi correlate possono essere ordinate in accordo alla loro rilevanza o significato basate sulle loro rispettive misure di predizione.

[0016] Un sistema di IR indicizza documenti in un insieme di documenti tramite la validità o la bontà delle frasi. Per ogni frase, una "posting list" identifica i documenti che contengono la frase. In più, per una data frase, una seconda lista, vettore, o altra struttura è usata per immagazzinare dati indicando quali delle frasi correlate di una data frase sono presenti in ogni documento contenendo la frase data . In questo modo, il sistema può prontamente identificare non solo quali documenti contengono quali frasi in risposta ad una query di ricerca, ma quali documenti contengono anche frasi che sono correlate alla frase di ricerca, e questo più similmente all'essere specifiche sui temi o concetti espressi nelle frasi di ricerca.

[0017] L'uso delle frasi e delle frasi correlate provvedono alla creazione e l'uso di clusters di frasi correlate, che rappresentano, semanticamente, significativi raggruppamenti di frasi. I clusters sono identificati dalle frasi correlate che hanno una misura di predizione molto alta fra tutte le frasi del cluster. I clusters possono essere usati per organizzare i risultati di una ricerca, inclusa la selezione di quali documenti da includere nei risultati della ricerca e il loro ordine, così come l'eliminazione di documenti dai risultati delle ricerche.

[0018] Il sistema di IR è anche adatto per usare le frasi quando ricerca i documenti in risposta ad una query. La query è processata per identificare ogni frase che è presente nella query, così come per rercuperare l'associata "posting list" per le frasi di ricerca, e le informazioni sulle frasi correlate. In più, in alcune istanze un utente può immettere una frase incompleta nella frase di ricerca, come "presidente degli". Le frasi incomplete come questa possono essere identificate e rimpiazzate dall'estensione della frase, come "presidente degli stati uniti". Questo aiuto assicura che più similmente le ricerche degli utenti vengono di fatto eseguite.

[0019] Le informazioni relative di frase possono anche essere usate dal sistema per identificare e selezionare quali documenti includere nei risultati delle ricerche. Le informazioni sulla frasi correlate indicano per una data frase in un dato documento, quali frasi correlate alla data frase sono presenti in un dato documento. Di conseguenza, per una query contenente due frasi di ricerca, la "posting list" per la prima frase di ricerca è processata per identificare documenti contenenti la prima frase, e poi l'informazioni relativa di frase è processata per identificare quali di questi documenti contiene anche la seconda frase di ricerca. Questi ulteriori documenti vengono inclusi nei risultati della ricerca. Questo elimina la necessità del sistema di processare separatamente la "posting list" della seconda frase di ricerca, fornendo tempi di ricerca più veloci. Giustamente, questo approccio può essere esteso ad ogni numero di frase in una query, limitando risorse computazionali e tempi.

[0020] Il sistema può essere poi adattato per usare la frase e l'informazione relativa di frase per ordinare i documenti in un insieme di risultati di ricerca. L'informazione relativa di frase di una data frase è preferibilmente immagazzinata in un formato, come un vettore di bit, che esprime il relativo significato di ogni frase correlata a una data frase. Per esempio, il vettore di frase correlato ha un bit per ogni frase correlata ad una data frase, e i bit sono ordinati in accordo alle misure di predizione per la frase correlata. I bit più significativi del vettore di frase correlato sono associati con le frasi correlate che hanno il valore più alto della misura di predizione, e il bit meno significativo è associato con la frase correlata che ha il valore più basso della misura. In questo modo, per un dato documento e una data frase, l'informazione relativa di frase può essere usata per valorizzare un documento. Il valore del vettore di bit può essere usato come valore del documento. In questo modo documenti che contengono un alto ordine di frasi correlate di una frase di ricerca sono più portati ad essere correlati alla query che quelli che hanno un basso ordine di frasi relative. Il valore del vettore di bit può essere usato anche come componente in una più complessa funzione di valorizzazione, e può essere pesato ulteriormente. I documenti possono essere ordinati in accordo con il loro loro valore.

[0021] L'informazione di frase può anche essere usata in un sistema di IR per personalizzare le ricerche per un utente. Un utente è modellato come una raccolta di frasi, per esempio, derivate da documenti che l'utente ha visionato (per esempio, visti sullo schermo, stampati, archiviati, etc). Più in particolare, dato un documento selezionato dall'utente, le relative frasi che sono presenti in questo documento, sono incluse in un modello o profilo dell'utente. Durante ricerche subsequenziali, le frasi nel "modello utente" sono usate per filtrare le frasi di una query di ricerca e per pesare il punteggio del documento dai documenti recuperati.

[0022] L'informazione di frase può anche essere usata in un sistema di IR per creare una descrizione di un documento, per esempio i documenti inclusi in un insieme di risultati di ricerca. Data una query di ricerca, il sistema identifica la frase presente nella query, insieme alle frasi ad essa correlate, e le la sua estensione. Per un dato documento, ogni frase di un documento ha un conto di quante frasi di ricerca, frasi correlate, ed estensioni sono presenti nella sentenza. Le frasi del documento possono essere ordinate da questi conti (singolarmente o in combinazione), e un certo numero delle frasi superiori di posto (esempio cinque frasi) sono selezionate per formare la descrizione del documento. La descrizione del documento può essere presentata all'utente quando un documento è incluso nei risultati delle ricerche, cosi che l'utente ottenga una migliore comprensione del documento, relativamente alla query.

[0023] Un perfezionamento ulteriore di questo processo di generazione delle descrizioni dei documenti permette al sistema di fornire descrizioni personalizzate, che riflettano l'interesse dell'utente. Come prima, un "modello utente" archivia informazioni identificando frasi correlate che sono di interesse per l'utente. Questo modello utente è intersecato con una lista di frasi correlate alle frasi di ricerca, per identificare sia frasi comuni sia gruppi. L'insieme comune è poi ordinato in accordo all'informazione relativa di frase. L'insieme risultante di frasi correlate è poi usato per ordinare le frasi di un documento secondo il numero di casi di queste frasi correlate presenti in ogni documento. Un numero di frasi che hanno il numero più alto di frasi comuni correlate è selezionato come descrizione personalizzata del documento.

[0024] Un sistema di IR può anche usare l'informazione di frase per identificare ed eliminare documenti duplicati, sia mentre indicizza l'insieme di documenti, o mentre processa una query di ricerca. Per un dato documento, ogni frase di un documento ha un conto di quante frasi correlate sono presenti nella frase. Le frasi del documento possono essere ordinate tramite questo conto, e un certo numero di frasi di posto superiore (esempio cinque frasi) sono selezionate per formare la descrizione del documento. Questa descrizione è poi archiviata in associazione al documento, per esempio come una stringa o un hash delle frasi. Durante l'indicizzazione, un nuovo documento trovato è processato nello stesso modo per generare la descrizione del documento. La nuova descrizione del documento può essere abbinata contro precedenti descrizioni, e se la corrispondenza viene trovata, allora il nuovo documento è duplicato. Similarmente, durante la preparazione dei risultati di una query di ricerca, i documenti nell'insieme dei risultati delle ricerche possono essere processati per eliminare duplicati.

Posted in Phrase based searching in IRS printer-friendly version | 2463 reads

Submitted by Motori-e-Ricerca on Wed, 2007-04-11 10:01.

Cerca con Google

Google
Web motoriericerca.com

Syndicate

XML feed

User login