Kas yra sumažinimas raktu?
Kas yra sumažinimas raktu?

Video: Kas yra sumažinimas raktu?

Video: Kas yra sumažinimas raktu?
Video: Kas yra NLP? 2024, Lapkritis
Anonim

Funkcija Spark RDD reductionByKey sujungia kiekvienos vertės Raktas naudojant asociatyvą sumažinti funkcija. Tai intuityviai reiškia, kad ši funkcija duoda tą patį rezultatą, kai pakartotinai taikoma tam pačiam RDD duomenų rinkiniui su keliais skaidiniais, neatsižvelgiant į elementų tvarką.

Tada kuo skiriasi groupByKey ir reductionByKey?

groupByKey () skirta tik sugrupuoti duomenų rinkinį pagal raktą. ReductionByKey () yra kažkas panašaus į grupavimą + agregavimą. ReductionByKey gali būti naudojamas, kai vykdome didelį duomenų rinkinį. aggregateByKey() logiškai yra toks pat kaip ReductionByKey (), bet tai leidžia grąžinti rezultatą skirtinga tipo.

Taip pat žinokite, kodėl reikia sumažinti kibirkšties veiksmą? Kibirkšties mažinimas operacija yra an veiksmas operaciją ir suaktyvina visą DAG vykdymą visoms tingioms instrukcijoms. Kibirkštis RDD sumažinti funkcija sumažina šio RDD elementus naudodama nurodytą komutacinį ir asociatyvinį dvejetainį operatorių. Kibirkšties mažinimas veikimas yra beveik panašus į sumažinti metodas „Scala“.

Be to, kas yra Pairrdd?

„Spark“teikia specialias operacijas RDD, turinčiose raktų / reikšmių poras. Šie RDD vadinami poriniais RDD. Suporuoti RDD yra naudinga daugelio programų sudedamoji dalis, nes jos atskleidžia operacijas, leidžiančias lygiagrečiai veikti kiekvieną klavišą arba pergrupuoti duomenis tinkle. Suporuoti RDD yra KEY/VALUE poros.

Ar reductionByKey yra veiksmas?

Reduction() išveda rinkinį, kuris neprideda prie nukreipto aciklinio grafiko (DAG), todėl yra įgyvendinamas kaip veiksmas . Tačiau ReductionByKey () grąžina RDD, kuris yra tik dar vienas lygis / būsena DAG, todėl yra transformacija.

Rekomenduojamas: