Adversarial Information Retrieval 2007

AIRweb, Adversarial Information Retrieval Web, rappresenta una serie di workshop internazionali di ricercatori e addetti ai lavori nel settore IR applicato al web, per presentare e discutere sulle novità nel mondo della ricerca e recupero delle informazioni. Quest'anno, l'AIRweb 2007 sarà parte integrante della 16° conferenza internazionale sul World Wide Web (Internation World Wide Web Conference) e si terrà l'8 maggio a Banff, in Canada.

Il comitato organizzativo vede, tra gli altri, alcuni rappresentanti dei maggiori colossi americani come Carlos Castillo di Yahoo Research e Kumar Chellapilla di Microsoft Live Labs. Durante la conferenza di quest'anno, saranno trattati diversi temi, tra i quali alcuni strettamente legati al mondo SEO e allo spamdexing, lo spam e l'utilizzo di tecniche contrarie alle linea guida dei motori di ricerca con lo scopo di raggiungere posizioni di vantaggio nei risultati delle ricerche e veicolare così alti volumi di traffico.

Vediamo alcuni degli argomenti:

  • Link spam: nepotistic linking, link farms, scambi link e link bombing.

Mi soffermo sul "nepotistic linking" solo perchè questo termine mi mancava, ma si sa, ormai va di moda il conio. Nepotismo è una parola che deriva dalla tendenza, nel passato, di certi papi a favorire i propri familiari con cariche e simili.

Penso che comportamenti del genere nel sistema di linking e nella costruzione della link popularity sia facilmente intuibile dai motori di ricerca, soprattutto da Big G: la costruzione di un network ad hoc solo per spingere un sito, o schemi di scambio link reciproci tra amici, in cui A linka B e C e B linka C, possono essere facili da scoprire. Per esperienza personale posso dire che un network proprietario per spingere un sito deve essere costruito e promosso perfettamente come fosse un "sito" qualsiasi; un network in cui tutti linkano tutti senza altri link outbound e con pochissima link popularity, ad esempio, non solo è riconoscibile ma
anche penalizzabile.

  • Content spam: keyword stuffing, phrase stitching, e altre tecniche per generare testi sintetici.
  • Cloaking: inviare contenuti diversi agli utenti e agli spider dei motori di ricerca
  • Comment spam: lo spam di link nei commenti di blog e forum
  • Spam oriented Blog, splogs (spam blogs usati solo per promuovere siti affiliati), spings (spam pings o trackbacks spam)
  • Click fraud detection: incluso l'incorraggiamento ai click per profitti che per consumare i fondi di competitor.
  • Reverse engineering per studiare gli algoritmi di ranking
  • Web content filtering: usato da governi, corporazioni e quant'altro per restingere l'accesso a determinati contenuti
  • Advertisement blocking: sviluppo di software per bloccare gli annunci pubblicitari durante la navigazione
  • Stealthcrawling: operazioni di crawling della rete evitando di essere scoperti
  • Malicious tagging: per l'inserimento di keywords o per auto promuoversi in generale.

Tratto da Get by Fastpopularity

Vediamo ora di approfondire e presentare alcuni abstract dei documenti che verranno trattati:

Tassonomia dello spam con redirect in javascript
Kumar Chellapilla and Alexey Maykov

"Lo spam con redirect presenta una pagina web con un falso contenuto ad uno spider per l'indicizzazione, ma automaticamente reindirizza il browser ad una pagina differente. La reindirizzazione è solitamente immediata (al caricamento della pagina) ma può anche essere innescata da uno script a tempo o da un evento inoffensivo dell'utente come il movimento del mouse. La reinstradazione in javascript è tra le più rinomate tecniche di reindirizzazione ed è dura da rilevare, per un crawler che non interpreta gli script, quando viene generata tramite l'utilizzo di script costruiti ad hoc... [cut]"

Le doorway, le famose doorway, tanto usate e osannate fino a qualche tempo fa come uno degli "strumenti" più veloci per spingere un sito internet tra i risultati di una serp. Da leggere sul redirect.

Nuove misure per l'amministrazione della reputazione sulle reti peer-to-peer
Debora Donato, Mario Paniccia, Maddalena Selis, Carlos Castillo, Giovanni Cortese and Stefano Leonardi

"In questo lavoro studiamo l'efficacia dei meccanismi per l'amministrazione decentralizzata di reputazione nelle reti di P2P. Partiamo da EigenTrust, una procedura progettata per l'amministrazione di reputazione nelle applicazioni di file-sharing sulle reti di p2p. EigenTrust è risultato molto efficace contro tre attacchi naturali differenti da coalizioni cattive mentre si comporta male su un attacco particolare organizzato da due generi differenti di peer cattivi. Proponiamo varie misure di reputazione basate sulle idee recentemente introdotte per la rilevazione e retrocessione dello spam... [cut]"

Uso di "spam farm" per incrementare il Pagerank
Ye Du, Yaoyun Shi and Xin Zhao

"Al giorno d'oggi lo spamdexing è emerso per accapparrarsi i grossi ritorni economici che le prime posizioni sui motori di ricerca possono portare ed ha minacciato l'esattezza e l'imparzialità di quei posti. Capire le tecniche di spam è essenziale per valutare la forza e la debolezza di un algoritmo di ranking, e per combattere lo spam. In questa carta, identifichiamo la struttura ottimale di una "spam farm" con alcuni presupposti realistici... [cut]"

Combattere lo spam nei sistemi di tagging
Georgia Koutrika, Frans Effendi, Zoltán Gyöngyi, Paul Heymann and Hector García-Molina

"I sistemi di tagging (etichette) permettono agli utenti di annotare interattivamente un insieme di risorse comuni usando etichette descrittive. Come i sistemi di tagging stanno guadagnando popolarità, essi diventano più suscettibili dello spam: tag ingannevoli che sono generati per aumentare la visibilità di alcune risorse o confondere semplicemente gli utenti. Introduciamo una struttura per modellare i sistemi di tagging e i comportamenti degli utenti che li usano... [cut]"

Rilevazione di Splog usando analisi di auto-somiglianza sulle dinamiche temporali dei blog
Yu-Ru Lin, Hari Sundaram, Yun Chi, Junichi Tatemura and Belle Tseng

"Questo documento mette a fuoco la rilevazione di spam-blog (splog). I blog sono ormai meccanismi sociali di comunicazione altamente popolari. La presenza degli splogs degrada i risultati di ricerca dei blog così come consuma le risorse di rete. Nel nostro metodo sfruttiamo dinamiche temporali uniche per rilevare gli splogs.

Ci sono tre idee chiave nella nostra struttura di rilevazione dello splog. In primo luogo rappresentiamo la dinamica temporale dei blog usando matrici di auto-somiglianza definite su misure di somiglianza dell'intersezione dell'istogramma del periodo, del contenuto e degli attributi di collegamento dei post. In secondo luogo, indichiamo attraverso una visualizzazione della novità che le caratteristiche temporali del blog rivelano attributi correlati, a seconda del tipo di blog (blogs e splogs normali). In terzo luogo, proponiamo l'uso delle proprietà strutturali temporali computate dalle matrici di auto-somiglianza attraverso attributi differenti... [cut]"

Misurazione della similarità per rilevare link qualificati
Links Xiaoguang Qi, Lan Nie and Brian Davison

"Il successo iniziale di algoritmi di ranking basati sui link è stato affermato sul presupposto che i collegamenti implicano il merito delle pagine che linkano. Tuttavia, oggi molti collegamenti esistono diversi scopi tranne conferire autorità. Tali link introducono "rumore" nell'analisi e nuociono alla qualità di recupero. Per fornire risultati di ricerca di alta qualità, è importante rilevarli e ridurre la loro influenza. In questo documento, è proposto un metodo per rilevare tali link considerando misure multiple di somiglianza sulle pagine fonte e le pagine obiettivo. Con l'aiuto di un classificatore, questi link "rumorosi" sono rilevati e rimossi... [cut]"

Migliorare la classificazione dello Spam usando caratteristiche "Rank-time"
Krysta Svore, Qiang Wu, Chris Burges and Aaswath Raman

"In questa carta, studiamo la classificazione dello spam. Lo spam nel web si riferisce a pagine che usano tecniche per fuorviare i motori di ricerca nell'assegnazione di un rank più alto, così da aumentare il loro traffico. I nostri contributi sono doppi. In primo luogo, troviamo che il metodo di costruzione di un gruppo di dati è cruciale per la classificazione esatta dello spam e notiamo che questo problema si presenta generalmente e può essere duro da rilevare... [cut]"

Estrazione di spam dei link usando "Biased Random Walks" da "SpamSeed Sets" (insieme di "semi" di spam)
Baoning Wu and Kumar Chellapilla

"Lo spam link manipola deliberatamente hyperlinks fra pagine web per amplificare e aumentare il ranking nei motori di ricerca di una o più pagine target. Gli algoritmi di ranking basati sui link come PageRank, Hits, ed altri derivati sono particolarmente vulnerabili allo spam link. Link farm e scambi link sono due casi comuni dello spam dei link che producono le comunità di spam - ad esempio, interi clusters nel grafo del web. In questo documento, presentiamo un metodo diretto ad estrarre le comunità di spam link una volta dati uno o più membri della comunità. Contrariamente ai metodi completamente automatizzati precedenti a trovare lo spam link, il nostro metodo è specificamente destinato per essere usato con interazione. Il nostro approccio inizia con un piccolo insieme "seme" dello spam fornito dall'utente e simula una "camminata casuale" (random walks) sul grafo del web... [cut]"

Computazione di "Trusted Authority Scores" nei network di ricerca peer-to-peer
Josiane Xavier Parreira, Debora Donato, Carlos Castillo and Gerhard Weikum

"Le reti peer-to-peer (P2P) hanno ricevuto grande attenzione per la compartecipazione e la ricerca delle informazioni nelle grandi comunità di utenti. La natura aperta ed anonima delle reti P2P è uno dei punti di forza principalii, ma apre comunque le porte a manipolazioni delle informazioni e delle valutazioni di qualità.

Nel nostro lavoro precedente (J.X. Parreira, D. Donato, S. Michel e G. Weikum nel VLDB 2006) abbiamo presentato l'algoritmo JXP per la computazione distribuita dei punteggi di PageRank per unità di informazioni (pagine web, siti, peers, gruppi sociali, ecc.) con una struttura basata o sul grafo dei link o sull'approvazione degli stessi. L'algoritmo costruisce calcoli di autorità locale e bilaterale sugli incontri di peer con scambio di piccole strutture di dati che sono rilevanti per apprendere gradualmente le proprietà globali ed eventualmente convergere verso punteggi di autorità globali...[cut]"

Rilevazione dello spam link transduttivo
Dengyong Zhou, Christopher Burges and Tao Tao

"Lo spam può deteriorare significativamente la qualità dei motori di ricerca. Le tecniche iniziali dello spamming nel web pricipalmente maneggiano il contenuto della pagina. Poiché le informazioni dei link sono ampiamente usate nelle ricerche web, si è sviluppato lo spamming basato sui link. Finora, molte tecniche sono state proposte per rilevare lo spam link. Questi approcci sono generalmente costruiti su metodi di ranking basati sui link...[cut]"

Posted in SEO Motori-e-Ricerca's blog | 3561 reads

Submitted by Motori-e-Ricerca on Wed, 2007-04-18 09:54.

Cerca con Google

Google
Web motoriericerca.com

Syndicate

XML feed

User login