Dlouholetá zkušenost Behaimu s Hadoopem pokrývá plnou šíři činností potřebných v implementacích – architekturu, technický design, instalace, konfigurace, bezpečnost, integraci, provoz a podporu. Náš tým úspěšně dodal několik zákaznických Big Data implementací, ve kterých jsme použil širokou paletu Hadoop projektů a navazujících řešení.
Pro více informací o projektech a know-how Behaimu naleznete níže na stránce v následujícím pořadí:
- Apache Hadoop
- Apache Hbase
- Apache Sqoop
- Apache Flume
- Apache Hive
- Apache Spark
- Apache Zookeeper
- Cloudera Impala
- H2O
Apache Hadoop
Apache Hadoop je open-source softwarový framework používaný pro distribuované uložení a zpracování velkých objemů dat. Skládá se z počítačových clusterů vybudovaných z běžného hardware. Podporuje řadu bezpečnostních standardů a funkcionalit jako SSL, autentifikace přes Kerberos, šifrování „at rest“ nebo autorizaci pomocí rolí pro to, aby byla podniková data uložena bezpečně a byla dostupná pouze uživatelům, kterým jsou určena.
Základní framework se skládá z několika modulů:
– Hadoop Common – obsahuje knihovny a nástroje potřebné pro další Hadoop moduly
– Hadoop Distributed File System (HDFS) – distribuovaný souborový systém, který ukládá data na běžných počítačích a poskytuje vysokou agregovanou propustnost v rámci clusteru
– Hadoop YARN – resource-management platforma zodpovědná za správu počítačových zdrojů v clusteru a jejich použití pro plánování uživatelských aplikací
Hadoop MapReduce – implementace programovacího modelu MapReduce pro zpracování velkých objemů dat.
S Hadoop core frameworkem má Behaim více než 2 roky zkušeností:
- Instalace clusterů – nastavení, konfigurace a produkční podpora
- Konfigurace bezpečnosti, mj. napojení na Kerberos a LDAP
- Datová bezpečnost – encryption zones
Apache Hbase
HBase je open-source, nerelační distribuovaná databáze modelovaná podle Google BigTable, která je napsána v Javě.
Je vyvíjena jako součást projektu Apache Hadoop v rámci Apache Software Foundation a pracuje nad HDFS (Hadoop Distributed File System), a poskytuje Hadoopu funkce podobné BigTable. Nabízí fault-tolerant řešení pro ukládání velkého množství řídkých dat (malé množství informací zachyceného v rámci velké množiny prázdných nebo nevýznamných dat, například nalezení 50 největších položek ve skupině 2 miliard záznamů nebo nalezení nenulových položek představující méně než 0,1% velké skupiny).
Mezi vlastnosti HBase patří komprese, práce s pamětí a Bloom filtry nad sloupci. HBase je sloupcově orientované datové úložiště typu klíč-hodnota a je často používáno, protože výborně spolupracuje s Hadoopem a HDFS.
Pracuje nad HDFS a je vhodná pro rychlejší čtení a zápisy nad velkými datasety s vysokým výkonem a nízkou vstupně-výstupní latencí.
Zkušenost Behaimu: konfigurace, použití pomocí příkazů shellu, design datové vrstvy, HBase REST API z klientských aplikací (např. TIBCO), implementace čtení/zápis z různých aplikací (Java, TIBCO, jiné).
Apache Sqoop
Sqoop je command-line nástroj pro efektivní obousměrné přenosy dat mezi Hadoopem a strukturovanými datovými úložišti jako jsou relační databáze. Název Sqoop vznikl kombinací názvů SQL and Hadoop. Sqoop se stal populárním Apache projektem v březnu 2012.
Sqoop dovoluje provádět v offline módu některé úlohy (např. ETL zpracování) z EDW do Hadoopu díky efektivnímu zpracování a nízkým nárokům na systémové zdroje. Sqoop může být také použit pro export dat z Hadoopu do externí strukturované databáze. Sqoop pracuje s relačními databázemi jako Oracle, Microsoft SQL Server, Teradata, Oracle, MySQL, Postgres a HSQLDB.
Podporuje inkrementální plnění jedné tabulky nebo free-form SQL dotazy, případně uložené joby spouštěné opakovaně a provádějící import změn provedených do databáze od předchozího importu. Importy mohou také plnit tabulky v Hive nebo HBase.
Behaim má Apache Sqoop několik let zkušeností s typickými činnostmi jako:
- Příprava a provádění importních skriptů (včetně inkrementálních plnění)
- Příprava a provádění exportních skriptů
- Optimalizace datových úložišť (formát souborů parquet atd.)
Apache Flume
Apache Flume je distribuovaná, spolehlivá a dostupná služba pro efektivní sběr, agregaci a přesuny velkého množství logovacích dat. Její hlavní účel je doručovat data z aplikací do Hadoop HDFS. Má jednoduchou a flexibilní architekturu založenou na streamování dat. Je robustní a odolná proti chybám s nastavitelným mechanismem pro spolehlivost a mnoha failover a recovery mechanismy. Používá jednoduchý a rozšiřitelný datový model, který umožňuje přístup přes online analytické aplikace.
Flume dovoluje uživatelům Hadoopu streamovat velké objemy dat do HDFS:
– Streamovat data do Hadoopu z více zdrojů – typické příklady jsou aplikační logy, data ze sensorů a přístrojů, geolokační data atd.
– Využívat mezipaměť v případech, kdy je ve špičkách objem příchozích dat větší než rychlost s jakou mohou být ukládány
– Flume NG používá transakce formou kanálů pro garanci spolehlivého doručení zpráv. Když se zpráva přesunuje od jednoho agenta k druhému, jsou zahájeny dvě transakce. Jedna na agentu, který zprávu doručuje a druhá na přijímajícím agentu. To zajišťuje garantovanou sémantiku doručení.
Behaim s Flume pracuje dva roky, kdy provádíme instalace, nastavení, konfigurace a produkční nasazení, a také implementaci Flume komponent (zdroje, kanály, sinks, agenty apod.), včetně integrace s dalšími aplikacemi.
Apache Hive
Apache Hive je infrastruktura datového skladu vybudovaná nad Hadoopem pro poskytování datových sumarizací, dotazů a analýz. Hive poskytuje rozhraní typu SQL pro dotazování na data uložená v různých databázích a souborových systémech, které jsou integrovány s Hadoop. Bez Hive musí být dotazy implementovány v MapReduce Java API, kde se spouští SQL aplikace a dotazy nad distribuovanými daty. Hive nabízí nezbytnou SQL abstrakci k integraci dotazů SQL typu (HiveQL) do nižších vrstev Java API bez nutnosti implementovat dotazy přímo v základním Java API.
Protože většina datových skladů pracuje s jazyky na bázi SQL dotazování, Hive podporuje snadnou přenositelnost aplikací postavených na SQL do Hadoopu. Apache Hive byl originálně vyvinut Facebookem a je v současnosti používán společnostmi jako Netflix nebo FINRA.
Víceletá zkušenost Behaimu zahrnuje: Instalace, nastavení, konfigurace, shell skripty, přístup k datům pomocí JDBC z různých klientů, BI nástroje (Spotfire, Tableau) atd.
Apache Spark
Apache Spark je open-source framework pro cluster computing. Nabízí developerům API zaměřená na datové struktury zvané Resilient Distributed Datasets (RDD), tedy read-only multiset datových položek distribuovaný v rámci clusteru počítačů, který je spravovaný jako fault-tolerant řešení.
Byl vyvinut jako odpověď na omezení výpočetního paradigmatu MapReduce clusteru: MapReduce programy čtou vstupní data z disku, mapují funkci přes celá data, redukují výsledky mapy a ukládají výsledky redukce na disk. Spark RDD pracují jako pracovní set pro distribuované programy, který nabízí (záměrně) omezenou formu distribuované sdílené paměti.
Dostupnost RDD usnadňuje implementace iterativních algoritmů, které pracují se svými datasety několikrát ve smyčce, a také interaktivní datovou analýzu, např. opakované dotazování na data ve stylu databáze. Latence takových aplikací (v porovnání s Apache Hadoop, populární implementací MapReduce) může být i řádově nižší. Mezi iterativní algoritmy patří algoritmy pro strojové učení, které byly prvotním impulsem pro vznik Apache Spark.
S Apache Spark máme dva roky zkušeností, zejména v činnostech jako
- Instalace, nastavení, konfigurace a produkční nasazení
- Implementace v aplikacích (Java, Scala a další)
- Použití Mllib (včetně Javy, R scriptů apod.)
Apache Zookeeper
ZooKeeper je distribuovaná, open-source koordinační služba pro distribuované aplikace. Vystavuje jednoduchou sadu primitiv, na kterých může distribuovaná aplikace implementovat služby na vyšší úrovni pro synchronizaci, správu konfigurací, skupiny a názvy. Jednoduše se do ní programuje, a používá datový model inspirovaný dobře známou adresářovou strukturou souborových systémů.
Běží pod Javou a má bindingy pro Javu i C.
Naše know-how v Zookeperu jsou nastavení, konfigurace, produkční deploymenty a implementace klientských aplikací využívající API Zookeeperu.
Cloudera Impala
Cloudera Impala je dotazovací engine, který běží nad Apache Hadoop. Projekt byl oznámen v říjnu 2012 jako veřejná beta test distribuce a všeobecně dostupný je od května 2013. Impala přináší do Hadoopu škálovatelnou paralelní databázovou technologii, která uživatelům dovoluje spouštět SQL dotazy s nízkou latencí nad daty uloženými v HDFS a Apache Hbase bez toho, že by vyžadovaly přesuny dat nebo transformace. Impala je integrovaná Hadoopem tak, aby používala stejné souborové a datové formáty, metadata, bezpečnostní a resource management frameworky používané MapReduce, Apache Hive a dalším Hadoop software.
Implala je určená pro datové analytiky, kteří provádějí analýzy nad daty uloženými v Hadoopu s použitím SQL nebo BI nástrojů. Výsledkem je, že zpracování velkých objemů (přes MapReduce) a a současně i interaktivní dotazy mohou být prováděny s použitím stejných dat a metadat. Odstraňuje se tak potřeba přenosu do specializovaných systémů a převodu do proprietárních formátů jen proto, aby bylo možné provádět analýzu.
S Impalou má Behaim několik let zkušeností v oblasti instalací, nastavení, konfigurací, použití přes shell a přístup z různých JDBC klientů jako jsou BI nástroje (Sporfire, Tableau) atd.
H2O
H2O je open source software pro big data analýzu. Vyrábí jej start-up J2O.ai (dříve 0xdata), který vzniknul v roce 2011 v Silicon Valley. V současnosti je H2O nejpoužívanější open source platforma pro strojové učení. H2O používá 70.000 datových analytiků a více než 8.000 organizací po celém světě. H2O umožňuje uživatelům aplikovat stovky nebo tisíce možných modelů s cílem zjišťovat vzory v datech.
H2O může být volán ze statistického balíku R a dalších prostředí. Používá se pro zkoumání a analýzu datasetů uložených v cloudových výpočetních systémech a Apache HDFS (Hadoop Distributed File System), a také v konvenčních operačních systémech Linux, macOS a Microsoft Windows. H2O je napsán v Javě, Pythonu a R.
Zkušenosti Behaimu s dodávkami zahrnují: instalace clusterů, nastavení, konfigurace, deployment na produkci, tvorbu H2O modelů a použití z R skriptů.
Kontaktujte nás
"*" indicates required fields