data-lakehouse

Here are 96 public repositories matching this topic...

BemiHQ / BemiDB

Open-source Snowflake & Fivetran alternative, with Postgres compatibility. 　　　　　　　　　　　　　　　　　　　　Powers AI Agent sandbox environments at https://gettelio.com

analytics postgresql data-warehouse olap parquet iceberg duckdb data-movement data-lakehouse zero-etl zero-pipeline

Updated Jan 7, 2026
Go

DataWithBaraa / sql-data-warehouse-project

Sponsor

Star

A comprehensive guide to building a modern data warehouse with SQL Server, including ETL processes, data modeling, and analytics.

Updated Apr 23, 2025
TSQL

pracdata / awesome-open-source-data-engineering

Star

A curated list of open source tools used in analytics platforms and data engineering ecosystem

Updated Mar 12, 2025

DataWithBaraa / databricks_bootcamp_2026

Sponsor

Star

End-to-end Data Lakehouse project built on Databricks, following the Medallion Architecture (Bronze, Silver, Gold). Covers real-world data engineering and analytics workflows using Spark, PySpark, SQL, Delta Lake, and Unity Catalog. Designed for learning, portfolio building, and job interviews.

python ai spark apache-spark etl pyspark data-engineering data-analytics databricks data-pipeline spark-sql lakehouse data-lakehouse unity-catalog protfolio-project medallion-architecture data-engineering-project

Updated Jan 19, 2026
Jupyter Notebook

Qbeast-io / qbeast-spark

Star

Qbeast-spark: DataSource enabling multi-dimensional indexing and efficient data sampling. Big Data, free from the unnecessary!

scala big-data spark sampling datasource spark-sql data-lakehouse

Updated Jan 24, 2025
Scala

laminlabs / lamindb

Star

Open-source data framework for biology. Context and memory for datasets and models at scale. Query, trace & validate with a lineage-native lakehouse for bio-formats, registries & ontologies. 🍊YC S22

open-source lims ontologies observability traceability data-versioning eln omics-data-integration data-lineage feature-store ml-ops data-lakehouse comp-bio-ops

Updated Feb 12, 2026
Python

dominikhei / Local-Data-LakeHouse

Star

Sample Data Lakehouse deployed in Docker containers using Apache Iceberg, Minio, Trino and a Hive Metastore. Can be used for local testing.

data-lake minio trino hive-metastore apache-iceberg lakehouse data-lakehouse

Updated Sep 2, 2023
Dockerfile

PFund-Software-Ltd / pfeed

Star

Data Engine for Manual/Algo Trading: Download/Stream -> Clean -> Store. Supports Data Lakehouse Architecture. Clean Once and Forget.

streaming data-storage pandas algo-trading historical-data data-pipeline backtesting delta-lake data-lakehouse polars

Updated Feb 13, 2026
Python

arcesium / swiftlake

Star

SwiftLake: Java SQL engine built on Apache Iceberg and DuckDB for efficient lakehouse reads and writes

iceberg datalake duckdb data-lakehouse datalakehouse apacheiceberg

Updated Aug 13, 2025
Java

ulbmuenster / dataasee

Star

DatAasee - A Metadata-Lake for Libraries

metadata library data-engineering data-lake xml2json data-catalog oai-pmh marc21 datacite metadata-management library-catalogue metadata-catalog metadata-mapping data-lakehouse metalake metadata-lake

Updated Nov 13, 2025
Makefile

nssalian / floe

Star

Floe: Policy-based table maintenance for Apache Iceberg

apache-spark trino apache-iceberg data-lakehouse table-maintenance-system

Updated Feb 5, 2026
Java

mahmoudparsian / data-warehousing

Star

This repository is a place for the Data Warehousing course at the Information Systems & Analytics department, Santa Clara University.

data-mining database etl extract data-visualization data-warehouse data-lake business-intelligence data-analytics load transform tableau elt data-modeling data-warehousing star-schema snowflake-schema dimensional-modeling data-lakehouse

Updated Feb 13, 2026
Jupyter Notebook

aabouzaid / modern-data-platform-poc

Star

My M.Sc. dissertation: Modern Data Platform using DataOps, Kubernetes, and Cloud-Native ecosystem to build a resilient Big Data platform based on Data Lakehouse architecture which is the base for Machine Learning (MLOps) and Artificial Intelligence (AIOps).

kubernetes big-data data-engineering dataops data-platform cloud-native msc msc-project edinburgh-napier cloud-agnostic data-lakehouse

Updated May 12, 2024
Jupyter Notebook

gupta-aayushkr / F1-Racing

Star

The project aims to process Formula 1 racing data, create an automated data pipeline, and make the data available for presentation and analysis purposes.

sql azure databricks pyspark-notebook data-factory data-lakehouse

Updated Jan 10, 2024
Python

Rudra-G-23 / SQL-Data-Warehouse-Project

Star

This repo provides a step-by-step approach to building a modern data warehouse using PostgreSQL. It covers the ETL (Extract, Transform, Load) process, data modeling, exploratory data analysis (EDA), and advanced data analysis techniques.

data-science sql etl data-warehouse data-structures data-analytics datawarehousing pgsql pgadmin4 data-cleansing etl-pipeline data-warehouse-architecture data-lakehouse medallion-architecture rudra-prasad-bhuyan

Updated Mar 7, 2025
PLpgSQL

Monsau / Talentys-OSS-Data-Platform

Star

Complete open-source data platform with Airbyte, Dremio, dbt, and Apache Superset - Documented in 18 languages

multilingual opensource superset data-platform dbt dremio airbyte data-lakehouse openmetadata

Updated Oct 19, 2025
Python

abeltavares / versioned-data-lakehouse

Star

🌊 Git-like Version Control for Data with Nessie, Iceberg, and Spark

Updated Jan 21, 2025
Jupyter Notebook

marcellinus-witarsah / local-data-lakehouse-iceberg

Star

A project of creating a local data lakehouse using open-source tools and using Apache Iceberg as the open table format

apache-spark postgresql minio data-catalog datalake trino apache-iceberg data-lakehouse

Updated Dec 30, 2025
Shell

huwngnosleep / complete_lakehouse_techstack

Star

This project implements an end-to-end techstack for a data platform, for local development.

kafka spark hadoop etl bigdata data-warehouse data-platform lambda-architecture data-lakehouse

Updated Sep 22, 2025
Python

Elkoumy / real_time_data_lake

Star

🚀 Scalable near-real-time data pipeline using Apache Iceberg, Spark, Kafka, and Trino. ACID-compliant JSON ingestion, processing, and analytics. Dockerized for easy deployment. #DataEngineering #DataLake

docker kafka data-engineering data-lake real-time-analytics apache-iceberg data-lakehouse

Updated Apr 16, 2025
Python

Improve this page

Add a description, image, and links to the data-lakehouse topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the data-lakehouse topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-lakehouse

Here are 96 public repositories matching this topic...

BemiHQ / BemiDB

DataWithBaraa / sql-data-warehouse-project

pracdata / awesome-open-source-data-engineering

DataWithBaraa / databricks_bootcamp_2026

Qbeast-io / qbeast-spark

laminlabs / lamindb

dominikhei / Local-Data-LakeHouse

PFund-Software-Ltd / pfeed

arcesium / swiftlake

ulbmuenster / dataasee

nssalian / floe

mahmoudparsian / data-warehousing

aabouzaid / modern-data-platform-poc

gupta-aayushkr / F1-Racing

Rudra-G-23 / SQL-Data-Warehouse-Project

Monsau / Talentys-OSS-Data-Platform

abeltavares / versioned-data-lakehouse

marcellinus-witarsah / local-data-lakehouse-iceberg

huwngnosleep / complete_lakehouse_techstack

Elkoumy / real_time_data_lake

Improve this page

Add this topic to your repo