Turinys:

Kokie yra skirtingi „Hadoop“failų formatai?
Kokie yra skirtingi „Hadoop“failų formatai?

Video: Kokie yra skirtingi „Hadoop“failų formatai?

Video: Kokie yra skirtingi „Hadoop“failų formatai?
Video: Different Data File Formats in Big Data Engineering 2024, Lapkritis
Anonim

Jūsų laimei, didžiųjų duomenų bendruomenė iš esmės apsisprendė trimis optimizuotais failų formatai skirtas naudoti Hadoop klasteriai: optimizuotas eilučių stulpelis (ORC), „Avro“ir parketas.

Vėliau taip pat galima paklausti, kokie yra skirtingi duomenų formatų tipai?

Yra trys duomenų tipai kartografavimas ir GIS duomenų formatai . Kiekvienas tipo tvarkomas skirtingai.

Duomenų formatų tipai

  • Failų pagrindu – Shapefiles, Microstation dizaino failai (DGN), GeoTIFF vaizdai.
  • Katalogų pagrindu – ESRI ArcInfo Coverages, US Census TIGER.
  • Duomenų bazių jungtys – PostGIS, ESRI ArcSDE, MySQL.

Be to, koks failo formatas yra geriausias avilyje? RCFile yra stulpelio eilutė failo formatas . Tai dar viena forma Hive failo formatas kuri siūlo aukštą eilučių lygio suspaudimo laipsnį. Jei turite reikalauti atlikti kelias eilutes vienu metu, galite naudoti RCFile formatu.

Atsižvelgiant į tai, kokie yra įprasti Hadoop įvesties formatai?

„InputFormat“sukuria „Inputsplit“

  • Dažniausiai naudojami įvesties formatai:
  • „FileInputFormat“– tai pagrindinė visų failų pagrindu sukurtų „InputFormat“klasė.
  • TextInputFormat – tai numatytasis MapReduce įvesties formatas.
  • KeyValueTextInputFormat – panašus į TextInputFormat.
  • Spustelėkite nuorodą, kad sužinotumėte daugiau apie „Hadoop“„InputFormat“.

Kas yra orc failo formatas „Hadoop“?

ORC failo formatas Optimizuotas eilutės stulpelis ( ORC ) failo formatas yra labai efektyvus būdas saugoti Hive duomenis. Jis buvo sukurtas siekiant įveikti kito avilio apribojimus failų formatai . Naudojant ORC failai pagerina našumą, kai Hiveis skaito, rašo ir apdoroja duomenis.

Rekomenduojamas: