🍋
Menu
.parquet Data

Apache Parquet (ที่จัดเก็บแบบคอลัมน์)

Parquet เป็นรูปแบบจัดเก็บแบบคอลัมน์ที่ปรับปรุงสำหรับการวิเคราะห์ชุดข้อมูลขนาดใหญ่ โดยจัดเก็บข้อมูลเป็นคอลัมน์แทนแถว ทำให้คิวรีวิเคราะห์สามารถอ่านเฉพาะคอลัมน์ที่ต้องการ ลดปริมาณ I/O ได้อย่างมาก

ประเภท MIME

application/vnd.apache.parquet

ประเภท

ไบนารี

การบีบอัด

ไม่สูญเสียคุณภาพ

ข้อดี

  • + Excellent compression through columnar encoding
  • + Fast analytical queries — reads only needed columns
  • + Predicate pushdown skips irrelevant row groups entirely
  • + Standard in Spark, DuckDB, Pandas, and cloud data lakes

ข้อเสีย

  • Not suited for transactional row-level updates
  • More complex to write than CSV or JSON
  • Schema evolution has some limitations

เมื่อใดควรใช้ .PARQUET

ใช้ Parquet สำหรับ data lakes, งานวิเคราะห์, การประมวลผลด้วย Spark/Pandas และชุดข้อมูลขนาดใหญ่ที่คิวรีแบบคอลัมน์มีประโยชน์

รายละเอียดทางเทคนิค

ไฟล์ Parquet ประกอบด้วย row groups แต่ละกลุ่มแบ่งเป็น column chunks พร้อมการเข้ารหัสระดับหน้า (dictionary, RLE, delta) สถิติ (min/max/null count) ช่วยให้ข้ามข้อมูลที่ไม่เกี่ยวข้องได้

ประวัติ

Twitter และ Cloudera สร้าง Parquet ในปี 2013 ได้แรงบันดาลใจจากเอกสาร Dremel ของ Google กลายเป็นโปรเจกต์ Apache และเป็นรูปแบบมาตรฐานสำหรับ data lakes

แปลงจาก .PARQUET

แปลงเป็น .PARQUET

รูปแบบที่เกี่ยวข้อง

คำศัพท์ที่เกี่ยวข้อง