STACodec

[ICASSP 2026] STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs

Installation

conda create -n stacodec python=3.10 -y
conda activate stacodec
conda install -y -c conda-forge "ffmpeg=6.1.*" "pkg-config"
pip install -r requirements.txt

Quick Start

from stacodec_inference import STACodecInference

codec = STACodecInference.from_pretrained(
    repo_id="kaiyuanzhang0808/stacodec",
    model_id="stacodec_wavlm",  # stacodec_wavlm | stacodec_hubert | stacodec_wavlm_spd
    device="cuda:0",
)

# Encode audio to discrete codes
codes, scale = codec.encode_file("audio.wav")
print("Codes shape:", codes.shape)  # [B, N_codebooks, T]

# Decode codes back to audio
reconstructed = codec.decode(codes, scale)
codec.save_audio(reconstructed, "reconstructed.wav")

Acknowledgements

We borrowed a lot of code from PAST.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
assets		assets
config		config
logs		logs
past		past
.gitignore		.gitignore
README.md		README.md
example.py		example.py
requirements.txt		requirements.txt
semantic_token_extraction.py		semantic_token_extraction.py
stacodec_inference.py		stacodec_inference.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

STACodec

Installation

Quick Start

Acknowledgements

About

Uh oh!

Releases

Packages

Languages

epcm/STACodec

Folders and files

Latest commit

History

Repository files navigation

STACodec

Installation

Quick Start

Acknowledgements

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages