Kaip „Hadoop“pasiekiama duomenų lokalizacija?
Kaip „Hadoop“pasiekiama duomenų lokalizacija?

Video: Kaip „Hadoop“pasiekiama duomenų lokalizacija?

Video: Kaip „Hadoop“pasiekiama duomenų lokalizacija?
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn 2024, Gegužė
Anonim

Duomenų lokalizavimas in Hadoop . Paimkite pavyzdinį Wordcount pavyzdį, kuriame dauguma žodžių buvo pakartojami 5 ar daugiau kartų. Tokiu atveju po atvaizdavimo fazės kiekvienoje kartografo išvestyje bus žodžiai, kurių diapazonas yra 5 Lacs. Šis visas Mapper išvesties saugojimo į LFS procesas vadinamas Duomenų lokalizavimas.

Turint tai omenyje, kas yra duomenų lokalizavimas „Hadoop“?

Koncepcija Duomenys vietovėje Hadoop duomenys vietovėje MapReduce reiškia galimybę perkelti skaičiavimą arčiau tikrosios vietos duomenis yra mazge, o ne juda dideliais duomenis prie skaičiavimo. Tai sumažina tinklo perkrovą ir padidina bendrą sistemos pralaidumą.

Be to, kaip saugomi dideli duomenys? Dauguma žmonių automatiškai susieja HDFS arba Hadoop paskirstytą failų sistemą su Hadoop duomenis sandėliai. HDFS saugo informaciją grupėse, sudarytose iš mažesnių blokų. Šie blokai yra saugomi fizinėje vietoje saugykla vienetų, tokių kaip vidiniai diskų įrenginiai.

Tiesiog taip, kaip duomenys saugomi „Hadoop“?

Ant Hadoop klasteris, duomenis HDFS ir MapReduce sistema yra kiekviename klasterio įrenginyje. Duomenys yra saugomi in duomenis blokai DataNodes. HDFS atkartoja tuos duomenis blokus, paprastai 128 MB, ir paskirsto juos taip, kad būtų atkartojami keliuose klasterio mazguose.

Kaip failai saugomi HDFS?

HDFS atskleidžia a failą sistemos vardų erdvę ir leidžia būti vartotojo duomenims saugomi in failus . Viduje, a failą yra padalintas į vieną ar daugiau blokų ir šie blokai yra saugomi „DataNodes“rinkinyje. Vykdomas NameNode failą sistemos vardų erdvės operacijos, tokios kaip atidarymas, uždarymas ir pervardijimas failus ir katalogus.

Rekomenduojamas: