cosma-qc

Author	SHA1	Message	Date
Flag	3eb568f14e	dispatcher rm worker_src apres extract + fstrim pour eviter thin pool full Le cache src_.MP4 sur les workers s empile: 12 fichiers pour 82 GB au pire. Le thin pool LVM sur le host Proxmox est trop petit (810 GB pour 1144 GB thick-provisionned) et se remplit a 100% en quelques heures de pipeline -> I/O errors -> VMs auto-paused -> tout casse. Fix: delete src_.MP4 immediatement apres count_frames (les frames sont deja extraites), puis fstrim en fin de job pour que le thin pool reclaim les blocks immediatement via DISCARD/UNMAP.	2026-04-22 15:39:56 +00:00
Flag	2599a376af	dispatcher fix race condition sur exit_file extract Le setsid bash lance ffmpeg puis ecrit le code de retour: echo $? > exit_file Avec test -f on matchait le fichier pendant que le shell le creait vide (write() du "> exit_file" cree le fichier avant fwrite). Resultat: code_str="" -> isdigit()=False -> rc=1 -> ffmpeg failed false positive. Fix: test -s (existe ET non-vide) pour attendre que echo ait termine.	2026-04-22 09:35:48 +00:00
Flag	621f4e63e8	dispatcher fix VRAM estimate + adaptive stride pour éviter OOM RAM - estimate_vram_mib: 3500+13*frames (absurde 110GB pour 8k frames) ? 6000 MiB fixe (windowed+offload_to_cpu plafonne la VRAM indépendamment du total frames) - do_reconstruct: stride adaptatif basé sur RAM worker (23GB .87, 62GB .84) load_fn.py stack le tensor complet en CPU RAM (~3.15 MB/frame) budget 55% RAM ? stride 2-3 pour jobs >4k frames Debloque tous les jobs avant aucun ne pouvait passer pick_worker car estimate dépassait la VRAM totale des GPUs.	2026-04-22 08:44:52 +00:00
Flag	d4158b24bc	dispatcher — parallel workers (threading) + heartbeat daemon + atomic claim - threading: main loop spawns run_one in a thread per queued job; up to len(WORKERS) concurrent. - pick_worker: thread-safe VRAM reservation to avoid two threads picking the same GPU. - pop_queued/pop_queued_stitch: atomic SELECT+UPDATE sous BEGIN IMMEDIATE (status claimed). - Heartbeat daemon: thread qui ecrit dispatcher.heartbeat toutes les 5s (fini le faux dead pendant les jobs longs). - run_one: libere la reservation VRAM sur finally (error/done/queued).	2026-04-21 23:15:24 +00:00
Flag	43e2e6836e	workers — alias .84 ml-stack (cosma-vm inexistant)	2026-04-21 22:52:35 +00:00
Poulpe	f567d7e459	dashboard — barre de progression extraction par job - dispatcher.py : ffmpeg lancé en background (setsid), polling du nombre de frames toutes les 5s → mise à jour du champ `progress` en DB. ffprobe estime le total avant lancement pour calculer le %. - _jobs_table.html : barre de progression visible sur les jobs en status extracting/running - style.css : styles .prog-wrap/.prog-fill/.prog-text Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-21 13:48:41 +00:00
Poulpe	192550b60b	ingest+dispatcher — support acquisition depuis remote host via SSH - ingest.py : --remote-host <alias> pour scanner/exiftool via SSH, stocke les chemins avec préfixe "alias:" pour que le worker sache puller direct - dispatcher.py : scp_to_worker détecte "host:path" et fait pull remote (worker → source host) au lieu du double hop via dispatcher - _path_basename gère les paths préfixés pour ffmpeg Permet d'ingester les vidéos depuis n'importe quelle machine accessible en SSH sans passer 145GB par le conteneur FastAPI.	2026-04-21 13:31:40 +00:00
Poulpe	468f9084ec	viewer on-demand — relancer viser à la demande depuis le dashboard Le viser de demo.py était tué dès que le PLY était écrit (pour libérer la VRAM), donc les liens dans le dashboard menaient vers ERR_CONNECTION_REFUSED. Ajout d'un viewer standalone indépendant : - scripts/viser_ply.py : charge un PLY via open3d + sert via viser (sans GPU), subsample random à 2M pts max pour rester fluide - app/main.py : routes POST /jobs/{id}/view et /stitches/{id}/view qui scp le script sur le worker et lancent un viser détaché (nohup+setsid+disown via wrapper shell déposé sur le worker) - templates : remplace <a href> par <button class=viewer-btn> qui POST puis window.open de l'URL retournée - Dockerfile : copie scripts/ dans l'image (nécessaire pour scp-er viser_ply.py)	2026-04-21 13:09:48 +00:00
Poulpe	6ac3a382c7	dispatcher — stitch passthrough pour acquisition 1 seul PLY Quand un seul PLY est disponible (1 segment, 1 caméra), aucun alignement n'est nécessaire. On copie directement le PLY en output et on marque la stitch done plutôt qu'error. Cross-AUV est quand même tenté si conditions remplies.	2026-04-21 12:53:57 +00:00
Poulpe	69eb547463	dispatcher+ingest — fixes pour test end-to-end réel - dispatcher: scp du MP4 source vers le worker avant ffmpeg (les chemins .82 ne sont pas accessibles côté .87) - dispatcher: wrapper shell autour de demo.py pour killer viser dès que le PLY est écrit (setsid + pkill -f frames_dir) - dispatcher: PLY_ok fallback — accepte rc!=0 si le PLY existe et a une taille > 0 - dispatcher: fallback frame_count abaissé à 150 pour l'estimation VRAM - ingest: strip du suffixe timezone (+00:00) des timestamps exiftool QuickTimeUTC=1 Testé bout-en-bout sur GX010001.MP4 (70 frames, 10.6M pts PLY, VRAM peak 9.4 GB, kill viser OK).	2026-04-21 12:49:09 +00:00
Poulpe	654bb47825	monitor : temp GPU, conso watts, espace disque, heartbeat dispatcher - nvidia-smi : +temperature.gpu + power.draw - UI : tags °C / W / espace disque libre - Dispatcher heartbeat toutes les 4s → point vert/rouge en haut du monitor - Fix Docker SSH : copie + chmod 600 au démarrage (Bad owner) Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-21 10:42:44 +00:00
Poulpe	0e9a4c2684	Dockerfile : ajoute openssh-client pour worker monitor Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-21 10:38:08 +00:00
Poulpe	79b31e8839	dispatcher : fix spin loop quand pas de worker dispo (sleep 30s) Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-21 10:36:14 +00:00
Poulpe	26e5bfc05b	stitch pipeline câblé : DB + dispatcher + UI + fix subpath Caddy - Table stitches (per_auv + cross_auv) avec cancel/retry API - Dispatcher : PLY export auto (--save_ply), trigger stitch en cascade quand tous les jobs d'un AUV sont done - UI : section stitch live depuis DB avec statuts/durées/boutons - Fix : <base href="/cosma-qc/"> + chemins relatifs pour Caddy subpath - open3d 0.19.0 installé sur gpu (.87) - SSH key .82→.87 configurée, alias gpu ajouté sur .82 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-21 10:32:05 +00:00
Silver Surfer	3b005a4994	dashboard — colonnes par acquisition, checklist verticale hierarchique	2026-04-21 10:08:38 +00:00
Silver Surfer	47b082fd9d	add stitch.py (Open3D RANSAC+ICP multi-PLY merge)	2026-04-21 10:02:23 +00:00
Silver Surfer	857ebcf7df	add Dockerfile + docker-compose (port 3849 on .82)	2026-04-21 09:57:42 +00:00
Silver Surfer	b7d957c806	scaffold — FastAPI + SQLite + HTMX dashboard, ingest + dispatcher - app/main.py : dashboard /, partials /partials/{jobs,monitor} (htmx polling) - app/templates/ : index, jobs table, monitor card par worker - app/static/style.css : thème sombre cohérent - scripts/ingest.py : scan SSD d'acquisition, EXIF CreateDate → segments continus par (AUV, GoPro serial) avec seuil configurable - scripts/dispatcher.py : polling queue, pick worker selon VRAM free, extraction ffmpeg + lingbot-map windowed --offload_to_cpu, progression DB - DB : SQLite (acquisitions + jobs), lifecycle queued→extracting→running→done - Workers par défaut : .87 (3060 12GB) + .84 (3090 24GB) Contexte : QC terrain le jour-même (avant photogrammétrie à 30 jours), plusieurs heures × 2 GoPros × 2-3 AUVs d'enregistrement à traiter en parallèle. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-04-21 09:52:41 +00:00
Agent surfer	17edbcbd8b	Initial commit	2026-04-21 09:47:36 +00:00

19 Commits