Kokia yra mažų „Hadoop“failų problema?
Kokia yra mažų „Hadoop“failų problema?

Video: Kokia yra mažų „Hadoop“failų problema?

Video: Kokia yra mažų „Hadoop“failų problema?
Video: Hadoop Small File Issue | Hadoop Interview Questions 2024, Lapkritis
Anonim

1) Mažos failo problemos in HDFS : Daug saugoma mažus failus kurios yra itin mažesnis nei bloko dydis negali būti efektyviai valdomas HDFS . Perskaitymas mažus failus apima daug ieškojimų ir daug peršokimų tarp duomenų mazgo į duomenų mazgą, o tai yra neefektyvus duomenų apdorojimas.

Be to, kurie failai sprendžia mažas „Hadoop“failų problemas?

1) HAR ( Hadoop archyvas) Failai buvo supažindintas su spręsti mažų failų problemą . HAR įvedė sluoksnį viršuje HDFS , kurie suteikia sąsają failą prieiga. Naudojant Hadoop archyvo komanda, HAR failus yra sukurti, kuri veikia a MapReduce darbas supakuoti failus yra archyvuojamas mažesnis skaičius HDFS failai.

Be to, ar galiu turėti kelis failus HDFS naudojant skirtingus blokų dydžius? Numatytas dydis apie blokas yra 64 MB. tu gali pakeiskite jį pagal savo poreikius. Prie tavo klausimo taip tu gali sukurti kelis failus varijuojant blokų dydžiai bet realiuoju laiku tai valios nepritaria gamybai.

Be to, kodėl HDFS optimaliai netvarko mažų failų?

Problemos su mažus failus ir HDFS kas failą , katalogas ir blokuoti HDFS yra vaizduojamas kaip objektas vardinio mazgo atmintyje, kurių kiekvienas užima 150 baitų, kaip nykščio taisyklė. Be to, HDFS nėra pritaikyta efektyviai pasiekti mažus failus : tai yra pirmiausia skirtas didelės apimties srautinio perdavimo prieigai failus.

Kodėl „Hadoop“veikia lėtai?

Lėtas Apdorojimo greitis Šis diskas ieško užtrunka, todėl visas procesas yra labai didelis lėtas . Jeigu Hadoop apdoroja duomenis nedideliu kiekiu, tai labai lėtas palyginti. Tai idealiai tinka dideliems duomenų rinkiniams. Kaip Hadoop Pagrindinis yra paketinio apdorojimo variklis, kurio greitis apdorojimui realiuoju laiku yra mažesnis.

Rekomenduojamas: