Home | Software | Analisi | Links | Glossario | Bibliografia


Web Usage Mining

Analisi del comportamento di navigazione e classificazione degli utenti.
Applicazione al sito della Biblioteca di Ateneo.


Glossario

 

Action (pagina): pagina la cui richiesta indica che l'utente sta perseguendo lo scopo del sito.

Active investigator: utente che rimane a lungo sul sito e lo esplora. ( Cfr. short-time visitor e cliente ).

Alberi di classificazione : alberi decisionali ( cfr. ) con variabile risposta qualitativa.

Alberi di regressione : alberi decisionali ( cfr. ) con variabile risposta quantitativa.

Albero decisionale : rappresentazione grafica costruita suddividendo ripetutamente i dati secondo sottogruppi definiti dai valori delle variabili di risposta, per trovare sottoinsiemi omogenei. Tale suddivisione produce una gerarchia ad albero, dove i sottoinsiemi intermedi vengono chiamati nodi e quelli finali vengono chiamati foglie ( cfr. analisi di segmentazione).

Analisi di segmentazione : analisi che attua un raggruppamento delle unità statistiche assumendo che fra le variabili a disposizione ve ne sia una (variabile risposta) che si possa considerare come dipendente dalle altre (variabili esplicative). L'obiettivo dell'analisi di segmentazione è la classificazione delle unità statistiche in gruppi fra loro omogenei, con riferimento alle modalità della variabile risposta. L'output dell'analisi è solitamente rappresentato mediante una struttura ad albero, detta albero decisionale ( cfr. ).

Analisi esplorativa dei dati : vedi analisi preliminare.

Analisi preliminare o esplorativa dei dati : elaborazione delle informazioni a disposizione al fine di descrivere in modo sintetico l'insieme dei dati a disposizione tramite rappresentazioni grafiche o indicatori statistici.

Association rules : vedi regole associative e sequenze.

BP : acronimo di Error Back Propagation ( cfr. ).

Caching: processo di memorizzazione locale delle pagine richieste con più frequenza dagli utenti.

CART : algoritmo ricorsivo impiegato nella analisi di segmentazione ( cfr. ). Acronimo di Classification And Regression Trees .

CHAID : algoritmo ricorsivo impiegato nella analisi di segmentazione ( cfr. ). Acronimo di Chi-squared Automatic Interaction Detection.

Clickstream analysis : analisi delle sequenze di visita ai siti web.

Cliente (customer) : utente che ha realizzato lo scopo del sito. ( Cfr. active investigator e short-time visitor ).

Cluster analysis : analisi di raggruppamento che si propone di mettere insieme le unità statistiche in gruppi il più possibile omogenei al loro interno (coesione interna) ed eterogenei tra di loro (separazione esterna). Fa parte dei metodi di classificazione non supervisionati ( cfr.), può essere gerarchica ( cfr. gerarchico) o non gerarchica ( cfr. non gerarchico).

Concordanza : tendenza delle modalità (poco) elevate di una variabile ad associarsi a modalità (poco) elevate dell'altra ( cfr. discordanza).

Confidenza ( confidence ): indice utilizzato nelle regole e sequenze associative ( cfr.). Nella clickstream analysis ( cfr.) l'indice di confidence per la regola A –> B esprime la frequenza (e quindi, al limite, la probabilità) che in una sessione utente in cui è stata visualizzata la pagina A possa essere successivamente visualizzata la pagina B : confidence(A –> B) = P(B | A). ( Cfr. supporto).

Contact efficiency: vedi efficienza di contatto.

Conversion efficiency: vedi efficienza di conversione.

CRM : acronimo di Customer Relationship Management (cfr.) .

Customer Relationship Management : processo che coinvolge tutta la struttura aziendale e che ha come focus la conoscenza del cliente e del mercato, finalizzata ad una più sicura crescita della redditività aziendale.

Customer: vedi cliente.

Data cleansing (data cleaning): controllo di qualità dei dati disponibili ed (eventuale) pulizia preliminare dei dati.

Data mart : (database di marketing) database tematico, orientato all'attività di marketing che contiene dati di tipo descrittivo e di tipo comportamentale, utili per valutare attentamente i propri clienti, identificare esigenze e stili di comportamento, stabilire strategie commerciali differenziate.

Data mining : processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, con lo scopo di ottenere un risultato chiaro e utile al proprietario del database.

Data retrieval : attività consistente nell'estrazione da un archivio o da un database di una serie di dati, basandosi su criteri definiti a priori, in maniera esogena all'attività di estrazione stessa.

Data warehouse : raccolta di dati, orientata al soggetto, integrata, non volatile e variabile nel tempo, volta a supportare le decisioni del management.

Data webhouse : (1) data warehouse convenzionale fruibile attraverso il web, con interfacce utilizzabili da semplici browser; (2) data warehouse contenente i dati sul comportamento di coloro che interagiscono, attraverso i propri browser, con i siti Internet.

Database di marketing : vedi data mart.

Discordanza : tendenza delle modalità meno elevate di una delle due variabili ad associarsi a modalità elevate dell'altra ( cfr . concordanza).

Efficienza di contatto ( contact efficiency ): percentuale di utenti che passano almeno una determinata quantità di tempo minimo esplorando il sito.

Efficienza di conversione ( conversion efficiency ): percentuale di utenti che, dopo aver esplorato il sito, hanno anche realizzato il suo scopo (es. comprando i prodotti).

Error Back Propagation : algoritmo di apprendimento utilizzato nelle reti multilayer perceptron ( cfr. ), dove la retro-propagazione dell'errore, calcolato dalla differenza tra l'uscita ed il target, viene trasmesso a tutti i neuroni della rete, permettendo di modificare i pesi sinaptici.

Gerarchico (metodo) : metodo di classificazione che permette di ottenere una famiglia di partizioni, ciascuna associata ai successivi livelli di raggruppamento fra le unità statistiche. ( Cfr. non gerarchico).

Impurità : concetto impiegato nell'analisi di segmentazione ( cfr. ) corrispondente al concetto di eterogeneità delle unità statistiche, con riferimento alle modalità della variabile risposta.

Knowledge Discovery in Databases : processo di estrazione della conoscenza da un database, dall'individuazione degli obiettivi di business iniziali fino all'applicazione delle regole decisionali trovate.

Kohonen : vedi reti di Kohonen.

Market basket analysis : analisi del carrello della spesa.

Matrice dei dati : rappresentazione dei dati in una forma tabellare, disegnata sulla base delle esigenze di analisi e degli obiettivi preposti.

Multilayer perceptron (percettrone multistrato): rete neurale ad apprendimento supervisionato di tipo feed-forward (dove i segnali si propagano esclusivamente nel senso input-output), con più strati nascosti, uno di input ed uno di output, totalmente interconnessa. ( Cfr. reti neurali).

Non gerarchico (metodo): metodo di classificazione che permette di ottenere una sola partizione delle n unità statistiche in g gruppi (con g generalmente minore di n ) il cui numero viene definito a priori da colui che svolge la classificazione. ( Cfr. gerarchico).

Non supervisionato : metodo che non si confronta con variabili di riferimento (target o risposta), opera quindi in funzione di tutte le variabili a disposizione. ( Cfr. supervisionato).

OLAP : strumento, spesso di tipo grafico, che permette di visualizzare le relazioni tra le variabili a disposizione, seguendo la logica di analisi di un report a due dimensioni. Acronimo di On Line Analitical Processing .

Pagina action: vedi action (pagina).

Pagina target: vedi target (pagina).

Percettrone : primo modello di macchina per l'apprendimento automatico, da cui si svilupparono le reti neurali. ( Cfr. reti neurali, multilayer perceptron).

Potatura (pruning) : tecnica utilizzata nell'algoritmo CART ( cfr. ), relativa alla costruzione degli alberi decisionali ( cfr. ), attraverso la quale si costruisce dapprima l'albero di maggiori dimensioni, dove ogni nodo contiene solo un elemento oppure elementi appartenenti alla stessa classe. L'albero viene quindi "potato" secondo una regola che massimizza la capacità selettiva, a parità di complessità.

Prefetching: caratteristica del browser che permette ad una pagina HTML di recuperare altri contenuti web quando la connessione del browser dell'utente è inattiva. Il contenuto del prefetching viene immagazzinato nella cache del browser ed appare quindi velocemente non appena l'utente accede alla pagina che contiene il contenuto immagazzinato.

Regole associative e sequenze ( association and sequence rules ): tecniche esplorative spesso usate nella market basket analysis ( cfr. ) per misurare l'affinità di prodotti acquistati da un particolare consumatore; e nella clickstream analysis ( cfr. ) per misurare l'affinità delle pagine visitate da un utente di un sito.

Reti di Kohonen : tipi di reti neurali che permettono di classificare oggetti senza alcun tipo di supervisione e nascono dallo studio della topologia della corteccia del cervello umano. Sono denominate anche SOM ( Self Organizing Maps ).

Reti neurali : classe di modelli sviluppati nell'ambito delle scienze cognitive. Riescono a risolvere complessi problemi di classificazione e previsione grazie ad un processo di apprendimento in cui "imparano" la forma dei dati modificando i propri parametri interni.

Ricorsivo : procedimento che consiste nella applicazione ripetuta di una serie di operazioni, usando ogni volta come base di partenza il risultato dell'esecuzione precedente.

Sequence rules : vedi regole associative e sequenze.

Short-time visitor: utente che raggiunge il sito ma lo abbandona presto senza esplorarlo. ( Cfr. active investigator e cliente ).

SOM : acronimo di Self Organizing Maps. ( Cfr. reti di Kohonen).

Supervisionato : metodo che si confronta con la presenza di una variabile di riferimento (target o risposta), le cui modalità sono note. ( Cfr. non supervisionato).

Supporto ( support ): indice utilizzato nelle regole e sequenze associative ( cfr .). Nella clickstream analysis ( cfr .) il supporto per la regola A –> B esprime la frequenza (e quindi, al limite, la probabilità) che una sessione utente contenga le due pagine, in sequenza: support . ( Cfr . confidenza).

Target (pagina): pagina la cui richiesta indica che l'utente ha realizzato lo scopo del sito.

Unità statistiche : elementi del collettivo di interesse ai fini dell'analisi ( cfr. variabili statistiche)

Variabili continue : vedi variabili quantitative.

Variabili discrete : vedi variabili quantitative.

Variabili nominali : vedi variabili qualitative.

Variabili ordinali : vedi variabili qualitative.

Variabili qualitative : variabili relative a dati espressi in forma di aggettivo verbale. Danno origine a classificazioni in categorie e si possono distinguere in qualitative ordinali e qualitative nominali a seconda che sia possibile stabilire un ordinamento o meno tra le varie modalità.

Variabili quantitative : variabili legate a quantità intrinsecamente numeriche. Si distinguono in quantitative discrete, quando assumono un numero finito di valori, e quantitative continue, quando assumono un'infinità numerabile di valori.

Variabili statistiche : insieme delle caratteristiche di interesse per l'analisi, misurate su ciascuna unità statistica ( cfr. unità statistiche).

Web Content Mining : area del Web Mining ( cfr .) che si concentra sulle informazioni grezze disponibili nelle pagine web; la fonte dei dati consiste principalmente nei dati testuali delle pagine web e le tipiche applicazioni sono la classificazione e l'ordinamento delle pagine in base al contenuto.

Web Mining : area del data mining che si occupa dell'estrazione di conoscenza dal World Wide Web.

Web Structure Mining : area del Web Mining ( cfr .) che si focalizza sulla struttura del sito; la fonte dei dati consiste principalmente nell'informazione sulla struttura delle pagine web (es. collegamenti alle altre pagine). Le tipiche applicazioni sono la classificazione delle pagine web in base ai collegamenti e l'ordinamento delle pagine web attraverso una combinazione di contenuto e struttura.

Web Usage Mining : area del Web Mining che si occupa dell'estrazione di conoscenza dai log file del web server; La fonte dei dati consiste nei log (testuali) rappresentati in formati standard che vengono raccolti quando gli utenti accedono ai web server. Le tipiche applicazioni sono basate sulle tecniche per modellare gli utenti, come la personalizzazione del web ed i siti web adattivi.

 


Tesi di laurea di Gianluca Tavella


Università degli Studi di Milano - Bicocca

Facoltà di Economia
Corso di laurea in Economia e Commercio

Anno Accademico 2003-2004


Home | Software | Analisi | Links | Glossario | Bibliografia