Koks yra „Amazon Elastic MapReduce“duomenų apdorojimo variklis?
Koks yra „Amazon Elastic MapReduce“duomenų apdorojimo variklis?

Video: Koks yra „Amazon Elastic MapReduce“duomenų apdorojimo variklis?

Video: Koks yra „Amazon Elastic MapReduce“duomenų apdorojimo variklis?
Video: Introduction to Amazon Elastic MapReduce 2024, Gruodis
Anonim

Amazon EMR kaip platinamą naudoja „Apache Hadoop“. duomenų apdorojimo variklis . Hadoop yra atviro kodo Java programinės įrangos sistema, kuri palaiko duomenis - intensyvios paskirstytos programos, veikiančios didelėse grupėse apie prekinė techninė įranga.

Be to, kas yra „Amazon Elastic MapReduce“?

Amazon Elastic MapReduce ( EMR ) yra „Amazon“žiniatinklio paslaugos ( AWS ) didelių duomenų apdorojimo ir analizės įrankis. Amazon EMR apdoroja didelius duomenis Hadoop virtualių serverių klasteryje Amazon elastinga Compute Cloud ( EC2 ) ir Amazon Paprasta saugojimo paslauga ( S3 ).

Be to, ar „Amazon EMR“yra visiškai valdomas? Tai yra pilnai valdoma „Data Lake“paslauga, kuri gali atsieti duomenų saugyklą nuo skaičiavimo išteklių, todėl skaičiavimo grupes galima keisti, jas galima naudoti pagal poreikį, ir apima galimybę kelioms grupėms vienu metu pasiekti tuos pačius duomenų rinkinius.

Taip pat galima paklausti, kaip veikia AWS EMR?

Paprastai, kai apdorojate duomenis Amazon EMR , įvestis yra duomenys, saugomi kaip failai jūsų pasirinktoje pagrindinėje failų sistemoje, pvz., Amazon S3 arba HDFS. Šie duomenys apdorojimo sekoje pereina iš vieno žingsnio į kitą. Paskutiniame etape išvesties duomenys įrašomi į nurodytą vietą, pvz., į Amazon S3 kibiras.

Kuo skiriasi ec2 ir EMR?

Skirtingai nei EMR , EC2 neskirsto pagalbinių mazgų į pagrindinius ir užduočių mazgus. Tai padidina HDFS duomenų praradimo riziką, jei mazgas bus pašalintas / prarastas. EC2 naudoja Apache bibliotekas (s3a), kad pasiektų duomenis apie s3. Iš kitos pusės, EMR naudoja AWS patentuotą kodą, kad greičiau pasiektų s3.

Rekomenduojamas: