Internet

Co je korelační shlukování?

Korelační shlukování se provádí na databázích a dalších velkých zdrojích dat, aby se seskupily dohromady podobné datové sady a zároveň upozornily uživatele na odlišné datové sady.To lze dokonale provést v některých grafech, zatímco jiné zažijí chyby, protože bude obtížné odlišit podobně od odlišných dat.V případě posledně jmenovaného korelačního seskupování pomůže snížit chybu automaticky.Toto se často používá pro těžbu dat nebo pro vyhledávání nepravidelných dat pro podobnosti.Odlišná data jsou běžně odstraněna nebo umístěna do samostatného klastru.Uživatel sdělí programu, co má hledat, a kdy je nalezeno, kam umístit data.To se obvykle používá na velmi velké zdroje dat, pokud by to nebylo možné mdash;Nebo si vezměte příliš mnoho hodin a mdash;Prohledávání dat ručně.Může existovat perfektní shlukování nebo nedokonalé shlukování.

Perfektní shlukování je ideální scénář.To znamená, že existují pouze dva typy dat a jeden je to, co uživatel hledá, zatímco druhý není potřeba.Všechna pozitivní nebo potřebná data jsou umístěna do jednoho klastru, zatímco ostatní data jsou odstraněna nebo přesunutá.V tomto scénáři neexistuje zmatek a všechno funguje perfektně.

Nejsložitější grafy neumožňují dokonalé shlukování a místo toho jsou nedokonalé.Například graf má tři proměnné: x, y a z. x, y je podobné, x, z je podobné, ale y, z je odlišný.Tyto tři variabilní klastry jsou však tak podobné, že není možné mít dokonalé korelační shlukování.Program bude pracovat na maximalizaci počtu pozitivních korelací, ale to bude stále vyžadovat určité manuální vyhledávání uživatele.Například, pokud firma těží data pro velkou webovou stránku nebo databázi a chce vědět pouze o konkrétním aspektu, trvalo by navždy prohledat všechna data pro tento aspekt.Použitím shlukovacího vzorce budou data vyčleněna pro správnou analýzu.

Odlišné informace jsou řešeny pouze založené na pokynech uživatele.Uživatel si může zvolit odesílání odlišných dat do různých klastrů, protože informace mohou být užitečné pro jiné projekty.Pokud jsou data nepotřebná a jen plýtvají pamětí, pak se odlišná informace vyhodí.Při nedokonalém shlukování je možné, že některé odlišné informace nebudou vyhozeny, protože je to podobné údajům, pro které uživatel hledá.