Korábban erre olyan relációs adatbázis-kezelő rendszereket használtak, mint például az SQL. Ezek a rendszerek sokáig alkalmasak voltak a műszaki és üzleti igények kielégítésére, mivel rugalmasan, az üzleti folyamatok információs szükségleteinek megfelelően használhatók.
Az utóbbi évtizedekben azonban olyan új igények jelentek meg, amelyek már meghaladják a korábbi adatbázis-kezelő technológiák tudását. A Big Data épp ezért a sémamentes, nem-relációs adatbázisokon – mint az NoSQL – fut. Ettől függetlenül, az ilyen típusú adatokhoz is szükség van modellekre.
A Big Data fogalma alatt azt a komplex technológiai környezetet – szoftvert, hardvert, hálózati modelleket – értjük, amely lehetővé teszi olyan adatállományok feldolgozását, amelyek annyira nagyok és komplexek, hogy feldolgozásuk a meglévő adatbázis-menedzsment eszközökkel jelentős nehézségekbe ütközik.
A TechRepublic kigyűjtött néhány tippet, amelyeket érdemes szem előtt tartani a Big Data-alapú modellezés esetén.
1. Ne próbáljunk hagyományos modellezési technikákat alkalmazni!
A hagyományos, fixen rögzített adatmennyiség növekedése stabil és kiszámítható, ami viszonylag egyszerűvé teszi a kezelésüket. Ezzel szemben a „Nagy Adat” exponenciális növekedése kiszámíthatatlan, csakúgy, mint megjelenési formái és forrásai. A kivitelezésnél így megfelelően nyitott és rugalmas adatinterfészek létrehozására kell koncentrálni, mivel soha nem lehet tudni, hogy mikor jön létre egy új adatforrás vagy adatformátum.
2. Rendszerben, ne pedig sémákban gondolkozzunk!
A hagyományos adatrendszerben egy relációs adatbázis-sémával lefedhető az üzleti folyamatok támogatásához szükséges adatkapcsolatok többsége. A Big Data esetén azonban gyakorlatilag nem létezik adatbázis. Az is előfordul, hogy NoSQL-t vagy hasonló adatbázist használhatnak, amelyekhez nincs szükség adatbázis-sémára.
A Big Data-alapú modelleknek tehát rendszerekre, nem adatbázisokra kell épülniük. A rendszerösszetevőknek sokféle feltételnek meg kell felelniük. Ilyenek az üzleti információs követelmények, a vállalatirányítási és a biztonsági előírások, vagy akár az adatokhoz használt fizikai tárolási követelmények. Integrációra és nyitott interfészekre van szükség, mivel sokszor egymástól eltérő adatokról van szó, valamint tudni kell kezelni a különféle adattípusokat is.