ORC File

SUMMARY

ORC (Optimized Row Columnar) is a highly efficient columnar storage file format designed for big data processing. It provides advanced compression, predicate pushdown capabilities, and optimized reading patterns for large-scale data analysis.

How ORC files work

ORC files organize data into stripes, each containing index data, row data, and a footer. This structure enables efficient data access and processing:

Each stripe typically contains:

Index entries for fast data location
Column-based row groups with statistics
Metadata about the stripe's contents

Next generation time-series database

QuestDB is an open-source time-series database optimized for market and heavy industry data. Built from scratch in Java and C++, it offers high-throughput ingestion and fast SQL queries with time-series extensions.

Try live demo Read documentation

Key features and benefits

Advanced compression

ORC supports multiple compression methods including:

Dictionary encoding for string columns
Run-length encoding for repeated values
Bit packing for integers

Predicate pushdown

ORC's built-in indexing allows queries to skip irrelevant data blocks, significantly improving query performance through predicate pushdown.

Type support

The format supports complex data types including:

Nested structures
Arrays
Maps
Timestamps with various precisions

Next generation time-series database

QuestDB is an open-source time-series database optimized for market and heavy industry data. Built from scratch in Java and C++, it offers high-throughput ingestion and fast SQL queries with time-series extensions.

Try live demo Read documentation

Comparison with other formats

ORC vs Parquet

While both Apache Parquet and ORC are columnar formats, they have distinct characteristics:

Integration with data systems

ORC works particularly well with:

Apache Hive
Apache Spark
Data lake systems
Modern lakehouse architecture implementations

Use cases and applications

Time-series data storage

ORC's columnar nature makes it efficient for storing and querying time-series data, especially when:

Analyzing specific columns over time ranges
Performing temporal aggregations
Managing high-cardinality datasets

Analytics workloads

The format excels in analytical scenarios requiring:

Fast column access
Efficient filtering
Aggregation over large datasets
Complex predicate evaluation

Performance considerations

Read optimization

Stripe size configuration affects read performance
Column pruning reduces I/O overhead
Statistics help skip unnecessary data reads

Write patterns

Larger stripe sizes improve compression
Regular statistics collection enhances query planning
Proper column ordering can improve compression ratios

Best practices

Stripe Size: Configure based on typical query patterns
Compression: Choose appropriate compression based on data characteristics
Schema Design: Order columns to maximize compression efficiency
Statistics: Maintain up-to-date statistics for query optimization