chore: Restructure

# Conflicts: # config/measure.py # results/compression_results_auto_small.csv
2025-12-18 11:18:39 +01:00 · 2025-12-18 11:18:39 +01:00 · 2f869a8a7a
commit 2f869a8a7a
parent dd938489ef
41 changed files with 8 additions and 21 deletions
--- a/config/measure.py
+++ b/config/measure.py
@ -65,12 +65,12 @@ if __name__ == "__main__":
    ]

    models = [
-        ("auto-genome-full-256.pt", 256, "autoencoder", files_genome + files_genome_cnn),
-        ("auto-genome-full-128.pt", 128, "autoencoder", files_genome + files_genome_cnn),
+        ("auto-genome-full-256.pt", 256, "autoencoder", files_genome),
+        ("auto-genome-full-128.pt", 128, "autoencoder", files_genome),
        ("cnn-genome-full-256.pt", 256, "cnn", files_genome_cnn),
        ("cnn-genome-full-128.pt", 128, "cnn", files_genome_cnn),
-        ("auto-enwik9-full-256.pt", 256, "autoencoder", files_enwik9 + files_enwik9_cnn),
-        ("auto-enwik9-full-128.pt", 128, "autoencoder", files_enwik9 + files_enwik9_cnn),
+        ("auto-enwik9-full-256.pt", 256, "autoencoder", files_enwik9),
+        ("auto-enwik9-full-128.pt", 128, "autoencoder", files_enwik9),
        ("cnn-enwik9-full-256.pt", 256, "cnn", files_enwik9_cnn),
        ("cnn-enwik9-full-128.pt", 128, "cnn", files_enwik9_cnn),
    ]
--- a/config/measure_gzip_lz4.sh
+++ b/config/measure_gzip_lz4.sh
--- a/models/autoencoder/AutoEncoder-losses-128-enwik9.csv
+++ b/models/autoencoder/AutoEncoder-losses-128-enwik9.csv
--- a/models/autoencoder/AutoEncoder-losses-128-enwik9.png
+++ b/models/autoencoder/AutoEncoder-losses-128-enwik9.png
--- a/models/autoencoder/AutoEncoder-losses-128-genome.csv
+++ b/models/autoencoder/AutoEncoder-losses-128-genome.csv
--- a/models/autoencoder/AutoEncoder-losses-128-genome.png
+++ b/models/autoencoder/AutoEncoder-losses-128-genome.png
--- a/models/autoencoder/AutoEncoder-losses-256-enwik9.csv
+++ b/models/autoencoder/AutoEncoder-losses-256-enwik9.csv
--- a/models/autoencoder/AutoEncoder-losses-256-enwik9.png
+++ b/models/autoencoder/AutoEncoder-losses-256-enwik9.png
--- a/models/autoencoder/AutoEncoder-losses-256-genome.csv
+++ b/models/autoencoder/AutoEncoder-losses-256-genome.csv
--- a/models/autoencoder/AutoEncoder-losses-256-genome.png
+++ b/models/autoencoder/AutoEncoder-losses-256-genome.png
--- a/results/cnn/CNNPredictor-losses-128-enwik9.csv
+++ b/results/cnn/CNNPredictor-losses-128-enwik9.csv
--- a/results/cnn/CNNPredictor-losses-128-enwik9.png
+++ b/results/cnn/CNNPredictor-losses-128-enwik9.png
--- a/results/cnn/CNNPredictor-losses-128-genome.csv
+++ b/results/cnn/CNNPredictor-losses-128-genome.csv
--- a/results/cnn/CNNPredictor-losses-128-genome.png
+++ b/results/cnn/CNNPredictor-losses-128-genome.png
--- a/results/cnn/CNNPredictor-losses-256-enwik9.csv
+++ b/results/cnn/CNNPredictor-losses-256-enwik9.csv
--- a/results/cnn/CNNPredictor-losses-256-enwik9.png
+++ b/results/cnn/CNNPredictor-losses-256-enwik9.png
--- a/results/cnn/CNNPredictor-losses-256-genome.csv
+++ b/results/cnn/CNNPredictor-losses-256-genome.csv
--- a/results/cnn/CNNPredictor-losses-256-genome.png
+++ b/results/cnn/CNNPredictor-losses-256-genome.png
--- a/pyproject.toml
+++ b/pyproject.toml
@ -9,7 +9,7 @@ dependencies = [
    "fsspec==2024.9.0",
    "lorem>=0.1.1",
    "arithmeticencodingpython",
-    "pandas-stubs~=2.3.3",
+    "pandas-stubs==2.3.3.251201",
    "seaborn>=0.13.2",
 ]

--- a/results/compress/compression_results_auto_small.csv
+++ b/results/compress/compression_results_auto_small.csv
@ -1,13 +0,0 @@
-model_type,model_name,context_length,dataset_type,input_file_name,original_file_size,compressed_file_size,mse_loss,compression_time,decompression_time
-autoencoder,auto-genome-full-256.pt,256,genome,genome_small.fna,1367,1392,220.29188537597656,237708436,29378622
-autoencoder,auto-genome-full-256.pt,256,genome,genome_xsmall.fna,1043,1160,263.97027587890625,5293080,4488761
-autoencoder,auto-genome-full-256.pt,256,genome,genome_xxsmall.fna,800,928,319.5350036621094,4873340,4381310
-autoencoder,auto-genome-full-128.pt,128,genome,genome_small.fna,1367,2816,120.52304077148438,251659317,5284661
-autoencoder,auto-genome-full-128.pt,128,genome,genome_xsmall.fna,1043,2304,133.8379669189453,152590538,4432469
-autoencoder,auto-genome-full-128.pt,128,genome,genome_xxsmall.fna,800,1792,159.2862548828125,153622653,4532139
-autoencoder,auto-enwik9-full-256.pt,256,enwik9,text_small.txt,1022,976,746.8033447265625,6699780,22065927
-autoencoder,auto-enwik9-full-256.pt,256,enwik9,text_xsmall.txt,825,976,787.5345458984375,3715750,3665629
-autoencoder,auto-enwik9-full-256.pt,256,enwik9,text_xxsmall.txt,492,488,828.8658447265625,4892560,4176979
-autoencoder,auto-enwik9-full-128.pt,128,enwik9,text_small.txt,1022,2016,231.42955017089844,5005880,4400159
-autoencoder,auto-enwik9-full-128.pt,128,enwik9,text_xsmall.txt,825,1764,236.55636596679688,5024449,4180100
-autoencoder,auto-enwik9-full-128.pt,128,enwik9,text_xxsmall.txt,492,1008,237.20529174804688,4856779,4145850
--- a/results/compress/compression_metrics_20251216_182603.csv
+++ b/results/compress/compression_metrics_20251216_182603.csv
--- a/results/compress/compression_results.csv
+++ b/results/compress/compression_results.csv
--- a/results/cpu_compression_graphs.py
+++ b/results/cpu_compression_graphs.py
@ -110,5 +110,5 @@ def plot_compression_metrics(csv_path, output_dir="results/compress/plots"):

 if __name__ == "__main__":
    # You can modify this path to point to your CSV file
-    csv_path = "results/compress/compression_metrics_20251216_182603.csv"
+    csv_path = "compression_metrics_20251216_182603.csv"
    plot_compression_metrics(csv_path)
--- a/results/graphs/autoencoder_enwik9_compression_ratio.png
+++ b/results/graphs/autoencoder_enwik9_compression_ratio.png
--- a/results/graphs/autoencoder_enwik9_execution_time.png
+++ b/results/graphs/autoencoder_enwik9_execution_time.png
--- a/results/graphs/autoencoder_genome_compression_ratio.png
+++ b/results/graphs/autoencoder_genome_compression_ratio.png
--- a/results/graphs/autoencoder_genome_execution_time.png
+++ b/results/graphs/autoencoder_genome_execution_time.png
--- a/results/graphs/autoencoder_loss.png
+++ b/results/graphs/autoencoder_loss.png
--- a/results/graphs/cnn_enwik9_compression_ratio.png
+++ b/results/graphs/cnn_enwik9_compression_ratio.png
--- a/results/graphs/cnn_enwik9_execution_time.png
+++ b/results/graphs/cnn_enwik9_execution_time.png
--- a/results/graphs/cnn_enwik9_extrapolated_execution_time.png
+++ b/results/graphs/cnn_enwik9_extrapolated_execution_time.png
--- a/results/graphs/cnn_genome_compression_ratio.png
+++ b/results/graphs/cnn_genome_compression_ratio.png
--- a/results/graphs/cnn_genome_execution_time.png
+++ b/results/graphs/cnn_genome_execution_time.png
--- a/results/graphs/cnn_genome_extrapolated_execution_time.png
+++ b/results/graphs/cnn_genome_extrapolated_execution_time.png
--- a/results/graphs/cnn_loss.png
+++ b/results/graphs/cnn_loss.png
--- a/results/graphs/plots/compression_ratio_comparison.png
+++ b/results/graphs/plots/compression_ratio_comparison.png
--- a/results/graphs/plots/compression_time_comparison.png
+++ b/results/graphs/plots/compression_time_comparison.png
--- a/results/graphs/plots/decompression_time_comparison.png
+++ b/results/graphs/plots/decompression_time_comparison.png
--- a/results/graphs/plots/ratio_vs_time.png
+++ b/results/graphs/plots/ratio_vs_time.png
--- a/results/make_graphs.py
+++ b/results/make_graphs.py
@ -5,7 +5,7 @@ import numpy as np

 if __name__ == "__main__":
    # read in the csv
-    df = pd.read_csv("./results/compress/compression_results.csv")
+    df = pd.read_csv("compression_results.csv")

    for dataset_type in df["dataset_type"].unique():
        for model_type in df["model_type"].unique():
--- a/uv.lock
+++ b/uv.lock
@ -1761,7 +1761,7 @@ requires-dist = [
    { name = "matplotlib", marker = "extra == 'dev'", specifier = ">=3.10.7" },
    { name = "memray", marker = "extra == 'dev'", specifier = ">=1.19.1" },
    { name = "optuna", marker = "extra == 'dev'", specifier = "==4.5.0" },
-    { name = "pandas-stubs", specifier = "~=2.3.3" },
+    { name = "pandas-stubs", specifier = "==2.3.3.251201" },
    { name = "regex", marker = "extra == 'dataset'", specifier = ">=2025.11.3" },
    { name = "seaborn", specifier = ">=0.13.2" },
    { name = "torch", marker = "extra == 'dev'", specifier = "==2.9.0" },