Evoluzione delle Tecnologie Web

Ricerche


Motori di ricerca degli anni 90

All'inizio i siti web erano pochi, trovarli era facile; attorno al 1992 il server del CERN aveva una semplice pagina con una lista dei siti web disponibili, ma presto, al crecere del web, il problema dell'indicizzazione divenne cruciale e furono sviluppati sistemi per ricercare ed indicizzare il web.

Il problema non era certo nuovo: gli archivi FTP degli anni 90 erano indicizzati dal sistema Archie della MC Gill University, ed un'interfaccia web ad Archie e' tuttora (2016) mantenuta all'universita' di Varsavia. I server Ghopher erano indicizzati da WAIS , Veronica e jugtail; negli anni 90 c'era anche un progetto europeo per un indice globale della rete che implementasse i protocolli X.500. Uno standard OSI di cui, negli anni seguenti, non ho piu' sentito parlare.

Negli anni 90 furono creati molti sistemi per fare indici di pagine dei siti web; si trattava di programmi automatizzati (detti web crawler o motori di ricerca) che scaricavano pagine html e le indicizzavano, in modo che potessero essere reperite usando parole chiave. Un'interfaccia web permetteva all'utente di usarli per cercare informazioni. Oltre ai motori di ricerca c'erano anche i meta-motori, come Hotbot: interfacce che facevano ricerche su piu' motori e poi ne mostravano una selezione all'utente.

Molti motori erano sviluppati in un contesto accademico, e poi cercarono uno sbocco commerciale durante la cosidetta dot.com bubble, durante gli anni 90, quando gli investitori americani si buttarono in massa nel business dell'informatica e di Internet, con l'idea che il mondo stesse cambiando tutto insieme e che la rete fosse una fonte inesauribile di denaro.

La maggior parte di questi motori hanno avuto una fortuna iniziale e poi sono scomparsi attorno al 2000 e oggi (2016), anche chi li ha usati se ne ricorda appena il nome, ne elenco giusto alcuni, fra i piu' importanti del periodo:

Il motore di ricerca che piu' si usava negli anni 90 era Altavista, della Digital (1995), utilizzava cluster di computer multiprocessori DEC alfa a 64 bit, con un sacco di RAM e gestiva un enorme database di pagine web, usando un mezzo terabyte di spazio disco, che per allora era tantissimo; indicizzava in modo completo i testi delle pagine e nel 1998 aveva circa 80 milioni di accessi al giorno. Quando la Digital fu comperata dalla Compaq perse importanza e fu poi ceduto a Yahoo.


Google

Iniziato nel 1996 a Stanford, come progetto personale di Larry Page e Sergey Brin, il motore di ricerca di Google ha finito per mettere in secondo piano tutti gli altri; in una decina d'anni Google diviene il nuovo gigante nel campo dell'informatica, con un'attivita' che spazia su molti settori diversi ed un giro d'affari dell'ordine delle decine di miliardi di dollari.

Page e Brin introducono l'idea del page rank; il loro motore di ricerca mostra i risultati ordinati per importanza: l'importanza di una pagina e' calcolata in base ai link che da altre pagine puntano a questa. E' una cosa simile a quello che avviene in ambito accademico, ove un autore viene considerato importante se e' molto citato. Nel 1998 pubblicarono il loro algoritmo, in un articolo dal titolo: The anatomy of a large-scale hypertextual Web search engine ( Brin, S.; Page, L. (1998) Comp. Net. and ISDN Systems. 30: 107 ); lo hanno anche brevettato ( brevetto USA: US6285999 ). Poi pero' l'algoritmo si e' evoluto diventando molto piu' complicato ed ora e' un segreto industriale gelosamente custodito (e forse troppo complesso per essere capito).

Gli elementi che hanno portato Google a battere la concorrenza di tutti gli altri motori di ricerca sono diversi: intanto Google ha sempre avuto un'interfaccia utente molto pulita e semplice, evitando che si riempisse di fastisiosa pubblicita' grafica, come aveva, ad esempio Altavista. Poi il "page rank" si dimostro' molto funzionale ed i loro algoritmi di indicizzazione efficienti e pensati fin dall'inizio per lavorare con un numero enorme di pagine web.

Ma quello che ha portato Google a crescere e' stato il modo di vendere inserzioni pubblicitarie, collegando l'oggetto dell'inserzione alle parole cercate, in modo da mostrare una pubblicita' mirata, piu' funzionale. Un'idea simile era gia' stata implementata da goto.com, ma il sistema di Google era concepito meglio.

Google lancio' il suo programma pubblicitario AdWords nel 2000; qui gli inserzionisti decidono quanto vogliono spendere al massimo e possono pagare in base ai click che la loro inserzione riceve (pay per click) od in base a quante volte la loro inserzione viene mostrata (pay per view); un algoritmo complicato, in base alle parole usate per la ricerca, estrae a sorte l'inserzione fra quelli che hanno "comperato" le parole della ricerca. La probabilita' di essere estratti e' proporzionale a quanto si e' disposti a pagare. In questo modo anche chi ha un piccolo budget puo' avere vantaggi dalle inserzioni ed e' disposto a pagare Google.

Le inserzioni sono ad ogni modo solo testuali, in modo da non disturbare troppo l'utente della pagina di ricerca. Le inserzioni mostrate maggiormante sono quelle coerenti con i risultati della ricerca; sono distinguibili dai risultati, anche se molti utenti non colgono la differenza e ci cliccano sopra, finendo su un venditore di quello su cui stanno cercando informazioni.

Il progetto Adsense, del 2003, trasforma i creatori di siti internet (i webmaster) in rivendotori di pubblicita' di Google. Qui e' Google che sceglie la publicita' che il sito mostra, in base a quanto il sito e' attinente all'argomento pubblicizzato.

Dal 2002 Google inizia a fornire servizi in rete: servizi di notizie (Google News, 2002), posta elettronica (Gmail, 2004), strumenti per i webmasters (2005), word processor in linea (Google docs 2007), un traduttore (Google translate), poi Google Maps, Google Books, Google Code (2004), spazio in linea (Google Drive) etc.. Nel 2008 produce anche un suo browser (Chrome) che in pochi anni diventera' il leader del mercato.

Per lo piu' Google offre servizi gratuiti, almeno nella configurazione base, ma questi permettono a Google di legare sempre di piu' a se l'utente; in questo modo Google e' in grado di avere un profilo preciso di moltissimi utenti; inoltre, distribuisce gratis strumenti per pagine web, come: fonts, mappe, icone, contatori di accessi, procedure Javascript e numerosi altri gadgets .

Tutte queste cose risiedono sui server di Google, e vengono scaricate dai browser quando le pagine che li usano vengono viste; per cui i siti che usano gli strumenti di Google, quando vengono visitati, provocano un accesso ai server do Google e Google ottiene informazioni e puo' sapere quali siti vengono visitati, quali pagine vengono viste e farne un profilo preciso per la sua offerta pubblicitaria.

I siti che utilizzano i servizi di Google nel 2016 sono cosi' tanti che un arresto di Google provocherebbe un blackout di mezzo web, ma sembra nessuno si accorga del problema. Nel 2007 Google ha comperato anche Doubleclick, un distributore di pubblicita' di successo, che usa cookies per tracciare gli utenti.

Non capisco gli americani: sono tanto preoccupati del fatto che la CIA li spii e poi si rendono sudditi di Google per qualche gadget in piu'. Nel 2006 Google e' praticamente sinonimo di Internet: la gente usa Google come pagina iniziale del browser e clicca sulla maschera di ricerca per visitare qualsiasi sito, ignorando che si puo' mettere l'indirizzo del sito nel riquadro appena sopra, (ho il dubbio che la somiglianza dei due riquadri non sia casuale), e poi, se non appari nelle prime pagine dei risultati, ti dicono che non sei in internet.

Il problema di farsi trovare ha creato una vera e propria industria, esistono professionisti e ditte attive nel campo del SEO (Search_engine_optimization); i siti non vengono piu' scritti per diffondere informazioni o mesaggi, ma in funzione degli algoritmi di ricerca di Google, che in realta' solo Google conosce realmente, e quando Google cambia qualcosa crea il panico nel settore.


Google e le ricerche nel 2010-2015

In effetti, nel tempo, i criteri di indicizzazione di Google si sono molto evoluti. All'inizio quello che contava era il page rank: essenzialmente il numero di link alla pagina; ma contava anche il testo del link ed i siti avevano un punteggio, in base alla quantita' e qualita' delle informazioni che contenevano. Link da siti istituzionali e di grossi produttori erano piu' importanti: in sitesi contava essere citati da siti importanti. Questo sistema funzionava molto bene attorno al 2000 e le ricerche su Google davano risultati accurati. Era anche relativamente facile apparire ai primi posti, con un po' di link nei posti giusti riuscii a portare il mio nome fra i primi 3-4 risultati delle ricerche.

Ma citare (e quindi mettere link) e' una pratica comune nel mondo accademico, ma non nel mondo commrciale ove i venditori si guardano bene di indirizzarti a qualcos'altro che non siano i loro prodotti. Per cui quando nel web e' entrato in modo preponderante il mondo commerciale le cose hanno iniziato a non funzionare cosi' bene ed i link utili per il page rank erano relativamente pochi. Anche per questo in quel periodo era relativamente facile piazzarsi bene nelle ricerche.
Ma, se le ditte linkavano poco, gli specialisti SEO, che cercavano tutti i trucchi, linkavano molto, e c'erano sistemi di scambio di link fra siti, e soprattutto siti finti, fatti di soli link allo scopo di ingannare Google. Era un rincorrersi, fra quelli che facevano trucchi e Google che cambiava gli algoritmi per evitarli, insereendo varianti come Google Panda, del 2011 e Google Penguin fra il 2012 ed il 2014.

Attorno al 2007 Google si mise ad indicizzare le immagini, scaricandosi le immagini dai siti, (anche quelle soggette a copyright), e questo provoco' miglior accesso a siti pieni di immagini, piuttosto che a buon testo; helldragon.eu e' pieno di immagini astronomiche e notai un notevole aumento di traffico quando inizio' a scaricarsele ed ancor piu' quando inizio' a scaricarsi i video.

I cambiamenti piu' importanti furono pero' quelli attorno al 2012, quando Google inizio' a dare piu' importanza a siti che cambiavano spesso, in pratica a blog e social network, per rendere i risultati delle sue ricerche piu' attuali. In questo modo segue quella che e' la tendenza alla frammentazione dell'informazione che vediamo inziare poco dopo il 2000, con l'esplodere del fenomeno dei blog e siti social, alimentato dal calo del costo dell'hardware e delle connessioni e facilitato dai CMS e dai linguaggi per il web.
Seguire i blog significa dare spazio ad informazioni attuali, ma anche dare spazio a tutto il rumore ed alle chiacchiere inutili che inondano il web. Attorno al 2016 cercare informazioni utili diviene piu' difficile, anche perche' su Google gli annunci pubblicitari aumentano e sembrerebbe che vengano privilegiati siti che utilizzano prodotti pubblicitari di google come AdWord od Adsense.

Fra il 2015 ed il 2016 Google inizia anche a privilegiare siti che si vedono bene sui cellulari, dato che la maggior parte delle ricerche vengono ormai effettuate da cellulare. Peccato che l'hardware dei cellulari sia in rapida evoluzione, specie le dimensioni dello schermo, e tutto questo causa ulteriore lavoro a quelli che fanno siti web: per essere visibili e farsi indicizzare bene da Google occorre, nel 2016, un sito che si adatti a tutti i diversi tipi di schermo.

Fra il 2015 ed il 2016 si nota anche una tendenza di Google a seguire l'idea del web sematico; in pratica l'algoritmo di Google pensa che uno stia facendo una domanda e da la risposta, in un grande riquadro in alto, che occupa mezza pagina e non sempre ci prende. E poi, certe volte, mi presenta anche altre domande, simili a quella che crede abbia fatto io, ma in genere fuori tema.

Se fin circa il 2010 trovavo che Google era la soluzione ottimale per le ricerche, negli ultimi anni (2015-2016) il problema delle ricerca si ripresenta. Se nel 2016 uso Google per avere informazioni su un prodotto, trovo prima un sacco di venditori, poi gente che chiacchiera del prodotto senza sapere cosa dice, e solo alla fine, forse, il sito del produttore. A questo si aggiunge l'ossessione di tutti di essere visibili nella confusione generale, con la tendenza ad un uso sempre piu' massiccio di grandi immagini e grandi scritte per catturare l'attenzione. Sui siti ufficiali dei produttori alla fine c'e' solo pubblicita'; campeggiano grandi immagini e scritte,ma si trovano poche informazioni serie. E' per questo che in queste pagine finisco per mettere link alla Wikipedia ove ancora si trova qualcosa.

Sto cercando alternative a Google, ma non e' che ce ne sono molte; Bing segue le tendenze di Google, Baidu e' in cinese, un po' difficile da usare per questioni linguistiche; sto provando: DuckDuckGo, che potrebbe essere interessante.