Metody eksploracji danych w serwisach internetowych


Metody eksploracji danych pozwalają właścicielom witryn maksymalizować przychody ze sprzedaży (na przykład za pomocą sprzedaży krzyżowej), oceniać skuteczność kampanii promocyjnych, optymalizować wygląd i funkcjonalność witryn, dostarczać internautom spersonalizowany przekaz (ofertę, reklamę), czy znaleźć najbardziej skuteczną i logiczną strukturę witryny.

Metody polegają na badaniu zachowań internautów poprzez automatyczne odkrywanie i analizowanie wzorców strumienia kliknięć (clickstream) wraz z innymi zmiennymi gromadzonymi lub wygenerowanymi w czasie kontaktu internauty z zasobami sieciowymi na jednej lub kilku witrynach internetowych.

Procedura analityczna składa się z trzech etapów:

  1. zebranie i wstępne przygotowanie danych – dane są oczyszczane i dzielone na podzbiory transakcji z uwzględnieniem aktywności internautów podczas każdej wizyty, zbiór danych transakcyjnych zostaje tu czasami powiększony o dodatkowe zmienne odnoszące się do zawartości strony, jej struktury lub obiektów takich jak katalogi produktów.

  2. odkrywanie wzorców – odkrywa się nieznane wcześniej wzorce zachowań za pomocą narzędzi bazodanowych, statystycznych i data mining, oprócz wyszukiwania wzorców behawioralnych przeprowadza się tutaj wstępna eksplorację danych w zakresie zasobów internetowych, sesji i użytkowników

  3. analiza wzorców – odkryte wzorce i statystyki są filtrowane, agregowane i wykorzystywane jako dane wejściowe do różnych aplikacji, m.in. silników rekomendacyjnych, aplikacji wizualizacyjnych czy aplikacji generujących raporty.

Na etapie odkrywania wzorców korzysta się z wielu metod i algorytmów wywodzących się ze statystyki, data mining, uczenia się maszyn i rozpoznawania wzorców. Wyróżnić można następujące metody analityczne:

  • analiza statystyczna – można tutaj wykorzystać statystyki opisowe (częstości, średnią, medianę itp) dla zmiennych odnoszących się do przeglądanych stron, czasu przeglądania strony czy liczby odwiedzanych stron w trakcie jednej sesji, pomimo ze analiza tego typu jest dosyć powierzchowna to jednak wykorzystuje się ja do usprawnienia działania systemu, poprawy jego bezpieczeństwa, modyfikacji wyglądu strony czy wsparcia decyzji marketingowych

  • reguły asocjacyjne – sprawdza się tutaj, które strony są odwiedzane podczas jednej sesji, ustalając częściej wartość wsparcia dla reguły. Strony te nie murza być powiązane za pomocą odnośników, zasną wyniki mogą być np użyte do zmiany struktury witryny

  • Grupowanie (clustering) – w przypadku eksploracji stron internetowych istnieją dwa rodzaje grupowania związane osobno z użytkownikami i osobno z przeglądanymi stronami. W pierwszym wypadku dąży się do utworzenia skupisk użytkowników o podobnych wzorcach zachowań. Po włączeniu do analizy zmiennych demograficznych można przeprowadzić segmentacje na potrzeby handlu elektronicznego lub spersonalizować zawartość stron przeglądanych przez użytkowników z poszczególnych skupisk. Z drugiej strony, grupowanie stron pozwala odkryć skupiska mające powiązaną zawartość. Informacja ta może być następnie użyta do dynamicznego przestawienia internautom odpowiednich odnośników odnoszących się do ich zapytań lub historii poszukiwanych przez nich danych

  • Klasyfikacja – polega na przyporządkowaniu obserwacji do zdefiniowanych wcześniej klas i na znalezieniu profilu internautów należących do każdej z nich. Po dokonaniu selekcji zmiennych niezależnych należy wybrać któreś z narzędzi do budowy modeli wzorcowych (ukierunkowany data mining), np drzewa klasyfikacyjne, naiwne klasyfikatory Bayesa, metodę najbliższego sąsiedztwa, metodę wektorów nośnych itp. Przykładowy profil mógłby brzmieć następująco: 35% klientów z działu “książki historyczne” to osoby w wieku 46-55 lat mieszkające w miastach o liczbie mieszkańców przekraczające 100tys osób

  • Wzorce sekwencji – badacz poszukuje wzorców odwiedzin strony, gdzie każda wizyta oznacza osobną sesję. Przykładowo: poszukuje się schematów zakupów realizowanych podczas kolejnych wizyt w sklepie internetowym. Specjaliści ds. Marketingu są dzięki temu w stanie przewiedzieć kolejne zakupy i oddziaływać na grupę docelową za pomocą odpowiednio przygotowanego komunikatu reklamowego.

  • Modelowanie zależności – ma na celu poszukiwanie związków miedzy zmiennymi w obrębie witryny. Przykładowy model może zawierać zmienne niezależne odnoszące się do działań, jakie użytkownik podejmuje podczas wizyty w sklepie internetowym oraz zmienną zależną odnoszącą się do kategorii/marki/ceny nabywanego produktu. Do analizy używa się ukrytych modeli Markova albo sieci bayesowskich. Informacje uzyskane w ten sposób są pomocne w formułowaniu strategii sprzedażowych lub usprawnieniu struktury witryny w celu łatwiejszej nawigacji przez użytkowników.