mirror of https://github.com/NousResearch/hermes-agent.git synced 2026-04-25 00:51:20 +00:00

teknium1 732c66b0f3 refactor: reorganize skills into sub-categories

The skills directory was getting disorganized — mlops alone had 40
skills in a flat list, and 12 categories were singletons with just
one skill each.

Code change:
- prompt_builder.py: Support sub-categories in skill scanner.
  skills/mlops/training/axolotl/SKILL.md now shows as category
  'mlops/training' instead of just 'mlops'. Backwards-compatible
  with existing flat structure.

Split mlops (40 skills) into 7 sub-categories:
- mlops/training (12): accelerate, axolotl, flash-attention,
  grpo-rl-training, peft, pytorch-fsdp, pytorch-lightning,
  simpo, slime, torchtitan, trl-fine-tuning, unsloth
- mlops/inference (8): gguf, guidance, instructor, llama-cpp,
  obliteratus, outlines, tensorrt-llm, vllm
- mlops/models (6): audiocraft, clip, llava, segment-anything,
  stable-diffusion, whisper
- mlops/vector-databases (4): chroma, faiss, pinecone, qdrant
- mlops/evaluation (5): huggingface-tokenizers,
  lm-evaluation-harness, nemo-curator, saelens, weights-and-biases
- mlops/cloud (2): lambda-labs, modal
- mlops/research (1): dspy

Merged singleton categories:
- gifs → media (gif-search joins youtube-content)
- music-creation → media (heartmula, songsee)
- diagramming → creative (excalidraw joins ascii-art)
- ocr-and-documents → productivity
- domain → research (domain-intel)
- feeds → research (blogwatcher)
- market-data → research (polymarket)

Fixed misplaced skills:
- mlops/code-review → software-development (not ML-specific)
- mlops/ml-paper-writing → research (academic writing)

Added DESCRIPTION.md files for all new/updated categories.

2026-03-09 03:35:53 -07:00

2.3 KiB

Raw Blame History

name

description

version

author

license

metadata

songsee

Generate spectrograms and audio feature visualizations (mel, chroma, MFCC, tempogram, etc.) from audio files via CLI. Useful for audio analysis, music production debugging, and visual documentation.

1.0.0

community

MIT

hermes

songsee

Generate spectrograms and multi-panel audio feature visualizations from audio files.

Prerequisites

Requires Go:

go install github.com/steipete/songsee/cmd/songsee@latest

Optional: ffmpeg for formats beyond WAV/MP3.

Quick Start

# Basic spectrogram
songsee track.mp3

# Save to specific file
songsee track.mp3 -o spectrogram.png

# Multi-panel visualization grid
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux

# Time slice (start at 12.5s, 8s duration)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg

# From stdin
cat track.mp3 | songsee - --format png -o out.png

Visualization Types

Use --viz with comma-separated values:

Type	Description
`spectrogram`	Standard frequency spectrogram
`mel`	Mel-scaled spectrogram
`chroma`	Pitch class distribution
`hpss`	Harmonic/percussive separation
`selfsim`	Self-similarity matrix
`loudness`	Loudness over time
`tempogram`	Tempo estimation
`mfcc`	Mel-frequency cepstral coefficients
`flux`	Spectral flux (onset detection)

Multiple --viz types render as a grid in a single image.

Common Flags

Flag	Description
`--viz`	Visualization types (comma-separated)
`--style`	Color palette: `classic`, `magma`, `inferno`, `viridis`, `gray`
`--width` / `--height`	Output image dimensions
`--window` / `--hop`	FFT window and hop size
`--min-freq` / `--max-freq`	Frequency range filter
`--start` / `--duration`	Time slice of the audio
`--format`	Output format: `jpg` or `png`
`-o`	Output file path

Notes

WAV and MP3 are decoded natively; other formats require ffmpeg
Output images can be inspected with vision_analyze for automated audio analysis
Useful for comparing audio outputs, debugging synthesis, or documenting audio processing pipelines

2.3 KiB Raw Blame History

songsee

Prerequisites

Quick Start

Visualization Types

Common Flags

Notes

2.3 KiB

Raw Blame History