[0009] I sistemi di IR, generalmente chiamati motori di ricerca, sono ora uno strumento essenziale per trovare informazioni su larga scala, diverse, e crescenti come Internet. Di solito, i motori di ricerca creano un indice che correla i documenti (o pagine) a parole individuali presenti in ogni documento. Un documento è recuperato in risposta ad una query contenente un certo numero di termini di ricerca, generalmente basato sull'avere alcuni dei termini di ricerca presenti nel documento. I documenti recuperati sono poi ordinati in accordo ad altre misure statistiche, come la frequenza di occorrenze dei termini di ricerca, il dominio, analisi dei link e simili. I documenti recuperati sono poi presentati agli utenti, tipicamente nel loro ordine valorizzato, e senza altri raggruppamenti o gerarchie imposte. In alcuni casi, una porzione selezionata di un testo di un documento è presentata per fornire all'utente una breve descrizione del contenuto del documento.
[0010] Dirette corrispondenze booleane dei termini di ricerca hanno ben note limitazioni, e in particolare non possono identificare documenti che non hanno i termini di ricerca, ma hanno parole correlate. Per esempio, in un tipico sistema booleano, una ricerca con "pastori australiani" non potrebbe fornire documenti su altre razze di cani come i Border Collies che non hanno l'esatto termine di ricerca. Anzi, tale sistema è similmente in grado di recuperare e valorizzare altamente i documenti circa l'Australia (che non hanno niente a che fare con i cani), e documenti in generale sui pastori.
[0011] Il problema è che i sistemi convenzionali indicizzano documenti basati su termini individuali, piuttosto che su concetti. I concetti sono spesso espresso in frasi, come "pastori australiani", "presidente degli Stati Uniti" o "Sundance film festival". Al meglio, alcuni sistemi indicizzeranno i documenti in rispetto a un predeterminato e molto limitato insieme di parole conosciute, che sono generalmente selezione da un operatore umano. L'indicizzazione di frasi è di solito evitata a causa delle richieste computazionali e di memoria per identificare tutte le possibili frasi con 3, 4, 5 o più parole. Per esempio, sull'assunto che ogni 5 parole possono costituire una frase, e un grande corpodi testo potrebbe avere al minimo 200.000 termini unici, ci sarebbero approssimativamente 3.2 per 10 alla 26 frasi possibili, chiaramente molto più che un sistema esistente potrebbe memorizzare o comunque manipulare in modo programmatico. Altro problema è che le frasi continuamente entrano ed escono dal lessico in termini del loro uso, molto più frequentemente che una nuova parola venga inventata. Nuove frasi vengono sempre generate, in campo tecnologico, artistico, legato ad eventi mondiali e legislativo. Altre frasi poi tendono a scomparire dall'uso comune nel tempo.
[0012] Alcune sistemi di IR esistenti cercano di provvedere al recupero di concetti usando modelli co-occorrenti di singole parole. In questi sistemi una ricerca su una parola, come "presidente" recupererà documenti che hanno altre parole che frequentemente compaiono in associazione a "presidente", come "bianca" e "casa". Mentre questo approccio può produrre dei risultati di ricerca avendo documenti che sono concettualmente correlati a livello di singole parole, questo non cattura di solito le relazioni in tema che sono inerenti fra co-occorenze di frasi.
[0013] In accordo a questo, c'è bisogno di un sistema di IR e di una metodologia che può comprensivamente identificare frasi su larga scala, indicizzare documenti in relazione a frasi, cercare ed ordinare documenti in accordo con le loro frasi, e fornire raggruppamenti addizionali e informazioni descrittive sui documenti.