.hdf5
Data
HDF5(Hierarchical Data Format 5)
HDF5は大規模な科学データセットの保存と管理のためのファイルフォーマットとライブラリです。ファイルシステムに似た階層的なグループ/データセット構造をサポートし、任意の次元のデータセットを扱えます。HDF5は衛星画像、ゲノミクス、物理シミュレーションの標準です。
MIMEタイプ
application/x-hdf5
種類
バイナリ
圧縮
無劣化
メリット
- + Handles datasets from kilobytes to exabytes
- + Hierarchical structure organizes complex data
- + Built-in compression and chunked storage for performance
- + Parallel I/O support for HPC clusters
デメリット
- − Complex API with a steep learning curve
- − Not suited for simple tabular data (use Parquet or CSV)
- − File corruption risk with concurrent writes without locks
.HDF5を使うタイミング
大規模な科学データセット、多次元配列、効率的なI/Oを備えた階層的な整理が必要なデータにHDF5を使用してください。
技術的詳細
HDF5ファイルはグループ(ディレクトリ)とデータセット(多次元配列)にメタデータ属性を付けてデータを整理します。チャンクストレージ、圧縮フィルター(gzip、LZF、SZIP)、高性能コンピューティング向けの並列I/Oをサポートします。
歴史
HDF Group(元はイリノイ大学NCSAに所属)は1980年代後半にHDFを作成しました。HDF5は1998年に完全な再設計としてリリースされ、現在NASA、CERN、ゲノミクスコミュニティで使用されています。