Era un po’ che volevo parlare di questo argomento, manca sempre il tempo di affrontarne di nuovi ultimamente e me ne scuso, pur ritenendo il Blog fattore cardine della nostra crescita a volte diventa un boomerang in quanto il semplice scrivere un articolo comporta del lavoro di ritorno che difficilmente si riesce a gestire.

Ci tenevo a stimolarVi su questo argomento, che come avrete intuito dal titolo sono i motori di ricerca aziendali. Sempre più spesso ci troviamo di fronte a migliaia di documenti, divisi per cartelle e sui quali perdiamo ore a cercare qualcosa che ci serve, pur se tutto ben organizzato. Se consideriamo il tempo che perdiamo a cercare file specifici (vecchie offerte, lettere, specifici argomenti, relazioni, ecc) e non sempre riusciamo con facilità ad individuarne l’ubicazione ci potremmo rendere così conto quanto è fondamentale l’argomento di questo articolo.

Fino a qualche anno fa mi era capitato di proporre software che si appoggiavano al motore di indicizzazione di Windows, ma come spesso capita con Microsoft ciò che “regala” con il suo sistema operativo non sempre è all’altezza di esigenze mirate, risultando poco più di un gioco e senza alcuna possibilità di configurazioni specifiche ed alla fine diventando una “inutility” in termini aziendali.

Dobbiamo pensare che chiunque voglia un motore di ricerca interno alla sua rete si aspetta:

  • Velocità di risposta
  • Google Like
  • Buon livello di affidabilità
  • E soprattutto Affidabilità nei risultati

E dal punto di vista di chi deve configurare il tutto ci si aspetta:

  • Un minimo di opzioni sul motore di indicizzazione
  • Un buon livello di documenti indicizzabili (pdf, word, excel, ecc.)
  • Una buona diagnostica in caso di problemi
  • Un profondo livello di indicizzazione

Tutti argomenti NON presenti sul motore Microsoft, inoltre di fatto Microsoft da un supporto davvero limitato a questo modulo che è lo stesso da Windows 2000 a Windows 2008 R2, rendendolo un prodotto assolutamente inaffidabile ed ormai obsoleto (a mio parere)

Inutile però negare l’enorme utilità di una soluzione di questo tipo, decine di ore risparmiate all’anno se considerate di poter trovare quello che cercate in pochi secondi anziché decine di minuti, moltiplicatelo per tutte le persone che lavorano nell’azienda e per tutte le ricerche che si fanno quotidianamente e vengono fuori numeri importanti.

Ore /anno

Dipendenti

Q.ta File

10

25

100

300

1000

1.000

81

202

807

2.420

8.067

10.000

121

303

1.210

3.630

12.100

100.000

161

403

1.613

4.840

16.133

1.000.000

282

706

2.823

8.470

28.233

Motore di Ricerca

20

50

202

605

2.017

Qualcuno ritiene che a volte i miei numeri possono essere un po’ di parte, ma Vi sfido, almeno in questo caso a fare due considerazioni in modo autonomo, valutando quanto tempo Voi stessi perdete quotidianamente per cercare un file che non trovate, moltiplicate questo valore per 22 giorni/mese e per 11 Mesi l’anno e ditemi se i risultati sopra non sono coerenti.

Ci siamo quindi messi a cercare un prodotto adeguato, che copra tutte le esigenze di solito richieste, Vi assicuro con non poche difficoltà:

  • Pochissimi prodotti
  • Per la maggior parte free con nessun supporto
  • Moltissimi progetti abbandonati ancora nel 97/98
  • Quei pochi prodotti trovati a costi proibitivi per un’azienda media (vedi la Google appliance)

Alla fine dopo decine di prove ed ore spese davanti al pc, abbiamo trovato il prodotto, collaudato, personalizzato e provato, ci siamo subito resi conto che è il prodotto giusto nel momento che abbiamo visto le sue esigenze in termini di spazio, memoria e tempo richiesto per effettuare una completa indicizzazione, tra le mani ci era passato di tutto e con risultati davvero pessimi.

l’abbiamo collaudato su alcuni clienti che hanno provato gratuitamente il tutto con notevole soddisfazione. Credo che sia come per Exchange o le mail su cellulare, fino a quando non le provi non ti rendi conto di quanto siano comode, fino al punto che diventano una “malattia”. E’ effettivamente una comodità notevole soprattutto in quelle realtà dove i documenti sono molti e spesso è complicato trovare quelli giusti:

  • Studi Legali
  • Commercialisti
  • Aziende commerciali
  • Ambito Produttivo
  • E molto altro

Ma ora veniamo a qualche dettaglio che può certamente farVi capire la portata del software:

  • Permette l’indicizzazione sia di Intranet che di Internet, linkando direttamente a file interni nel primo caso, così non dovete viaggiare per decine di directory
  • Permette di definire dei limiti in termini di parole cercate per file, dimensioni file, file in assoluto e quant’altro, questo in particolare e la chiave che determina le caratteristiche della macchina che dovrà ospitare il software, per una condizione piuttosto ampia (diciamo c.ca 3 Milioni di parole) richiede c.ca 2GB di Memoria e molta CPU, quindi è fondamentale valutare attentamente la quantità di dati che richiedono elaborazione per definire la macchina che dovrà ospitare il motore
  • Aspetto fondamentale permette la ricerca di similarità, esattamente come accade con google “ad esempio se cerco fish, mi proporrà fishes, fishing, fished, tutto questo con vocabolari specifici per nazione
  • Ha discrete opzioni che permettono di definire il peso delle ricerche e a cosa dare maggior importanza, così da poter avere tra i primi risultati ciò che ci interessa
  • Permette di impedire l’indicizzazione di parole specifiche, anche questo è assolutamente fondamentale in una intranet, in modo che si evitino ricerche particolari non volute dalla direzione
  • E’ possibile assegnare delle categorie a specifiche parole così da raffinare ulteriormente le ricerche
  • Permette la gestione dei sinonimi, anche quest’aspetto è fondamentale quando si fanno ricerche semantiche
  • Permette, a specifiche ricerche di associare Link ad esempio se cerco “offerta 120″ mi si potrebbe proporre il link della cartella con all’interno tutte le offerte
  • È un applicativo Windows, ma la parte client (ricerca) può essere sia PHP, che .NET, CGI, Javascript, in modo da ospitare le pagine di ricerca dove si ritiene più opportuno.
  • Gestione diritti, altro aspetto fondamentale, è possibile limitare l’accesso alla pagina di ricerca secondo specifiche regole
  • Indicizza al momento quasi qualsiasi documento venga in mente, PDF, DOC, PPT, XLS, SWF, JPG, GIF, HTLM, PHP, con decine di Plugin per altre tipologie di motori
  • Possibilità di personalizzare ulteriormente i risultati grazie a SDK Specifici di sviluppo.

Inutile dire che i vantaggi si vedono con l’aumento dei dati presenti e con l’aumento delle persone che ne fanno uso, ma ci sono soluzioni di costo estremamente economiche (in presenza di pochi file) fino a versioni Corporate che permettono di distribuire il carico di indicizzazione su più server, esattamente come avviene con un vero motore di ricerca, considerando la possibilità di usare qualsiasi macchina fisica o virtuale (64Bit con 8GB consigliato per siti con oltre 200.000 documenti) i risultati finali sono assolutamente fantastici.

I tempi di ricerca sono estremamente bassi, ovviamente è fondamentale avere a disposizione una macchina adeguata a seconda della quantità di file da indicizzare, in presenza di numeri >100.000 file, si consiglia un I7

Ricerca grandi Dimensioni (I7 2,66Ghz)

125,000 pages, and 6,193,693 total words (597,642 unique words).

Time is in seconds to generate and display results (the smaller the values the better)

Single word queries 2 word 3 words Wildcard Exact phrase
Platform Test 15 Test 16 Test 17 Test 18 Test 19 Test 20 Test 21
ASP.NET 0.3433 0.3370 0.3700 0.3490 0.3627 0.3853 0.3623
CGI (C++) 0.2587 0.2597 0.2683 0.2603 0.2737 0.2787 0.2580

Test 15 to 19 are random queries involving single to multiple search words.
Test 20 involves the use of wildcards, and Test 21 is an exact phrase query.
Note that this test was designed for the CGI(C++) and ASP.NET platforms only.
The PHP, ASP, and JS versions can not be used to search this amount of data.

 

Infine ritengo giusto citare il prodotto che è lo “Zoom Search Engine” di Wrensoft, noi dal canto nostro ne effettuiamo implementazione e studi di fattibilità su specifiche esigenze e la realizzazione dell’infrastruttura chiavi in mano. Va considerato che su un numero elevato di elementi un corretto Tuning è quantomeno fondamentale, impossibile pensare di installarlo ed aspettarsi che faccia quanto chiediamo al primo colpo.

Sono certo che quantomeno ho stimolato l’esigenza di molti che ritenevano un motore di ricerca aziendale non proponibile in termini di costi e risorse, oggi è assolutamente fattibile a costi abbordabili.

La “prova gratuita” poi stimola molto l’interesse, e come già detto, chi lo prova Vi assicuro che non ci rinuncia.

Buona ricerca a tutti, e pensate quanto possa essere emozionante avere un proprio motore di ricerca personale!