Workflow agentici e analisi malware: dal CERT‑AGID uno studio sui modelli locali e sulla sostenibilità operativa

Workflow agentici e analisi malware, un nuovo studio del CERT‑AGID analizza l’impiego di modelli linguistici e orchestratori locali nella malware analysis. La ricerca mostra come, nei workflow agentici complessi, il vero limite non sia il modello in sé, ma la capacità dell’intero stack, tool, orchestratore, runtime e gestione del contesto, di sostenere sessioni lunghe, multi‑stage e ricche di artefatti. I test evidenziano vantaggi e criticità di Codex, Ollama, llama‑server e orchestratori alternativi, indicando quali combinazioni risultano oggi più sostenibili per CERT e SOC.

Analisi del CERT‑AGID, perché i workflow agentici stanno cambiando la malware analysis

L’uso di agenti autonomi nella cybersecurity sta trasformando la malware analysis da semplice attività di triage a un processo investigativo complesso, capace di correlare artefatti multilivello, orchestrare tool locali e mantenere continuità di ragionamento lungo sessioni iterative.

Il paper del CERT‑AGID parte da un caso reale: una skill eseguita tramite Codex CLI con modello gpt‑5.4 ha ricostruito autonomamente una catena multi‑stage, superando parsing corrotti, offuscamenti e componenti nativi.

Come si legge nel documento: l’agente ha aggirato il parsing rotto estraendo direttamente il file DEX dal container tramite tecniche di carving.

Ma questo successo ha evidenziato un limite strutturale: il consumo cumulativo di token e la saturazione del contesto rendono i workflow cloud costosi e difficili da sostenere nel lungo periodo.

È possibile portare questi workflow in locale?

Il CERT‑AGID ha avviato una campagna di test su tre direttrici:

– Benchmark Codex CLI + Ollama su modelli open‑weights con tool‑use nativo.

– Test di robustezza del runtime locale tramite un client custom (modelcli) e llama‑server.

– Analisi qualitativa con Claude + Ollama per valutare l’impatto dell’orchestratore sulla tenuta della chain analitica.

Il documento sottolinea che il comportamento osservato dipende dallo stack nel suo complesso, non solo dal modello.

Cosa mostrano i benchmark: modelli, orchestratori e runtime a confronto

Codex + Ollama: il miglior compromesso operativo

Nei test comparativi su JavaScript offuscato, la combinazione più equilibrata è risultata:

– qwen3‑coder:30b

– Ollama come backend

– Codex CLI come orchestratore

Il modello ha mostrato la migliore progressione analitica, pur con limiti nella fase finale.

Il paper lo definisce “Best Operational Compromise”.

modelcli + llama‑server, massimo controllo sul runtime locale

Il client custom ha permesso:

– compattazione del contesto più affidabile

– gestione più chiara degli errori di tool‑use

– sessioni isolate e più stabili

– riduzione dei loop ripetitivi

Il modello Qwen3‑30B‑A3B‑GGUF ha riconosciuto pattern di offuscamento e indicatori utili alla triage, confermando che la stabilità del runtime può contare più della potenza del modello.

Claude + Ollama: meno deragliamenti, ma tempi più lunghi

Claude ha mostrato:

– maggiore stabilità del backend

– assenza di loop evidenti

– ma tempi di chiusura molto più lunghi

– e, in tre casi su quattro, nessun output utile entro il timeout

Il paper osserva che Claude tende a mantenere il backend occupato più a lungo, lasciando aperta la possibilità di una chain analitica più profonda.

Il punto critico non è il modello, è lo stack

La ricerca evidenzia un principio chiave per CERT e SOC: la vera metrica non è il modello, ma la sostenibilità del workflow.

Nei workflow agentici complessi, i fattori determinanti sono:

– gestione del contesto

– disciplina del tool‑use

– stabilità del runtime

– telemetria affidabile

– orchestrazione rigorosa

Il documento avverte che «l’esplosione dei dati intermedi mette a durissima prova i runtime locali, saturando il contesto e portando il sistema al delirio operativo» .

Perché i modelli locali diventeranno sempre più importanti

Il paper sottolinea che i costi dei workflow cloud e i vincoli di riservatezza dei campioni malware rendono necessario spostare parte delle analisi su infrastrutture locali.

Ma per farlo servono:

– workflow atomici, non monolitici

– orchestratori osservabili

– tool‑use controllato

– modelli quantizzati ma stabili

– runtime adattati alla macchina

Il rischio, avverte il CERT‑AGID, è abituarsi troppo alla fluidità dei modelli cloud e perdere autonomia tecnica.

Conclusione

Lo studio del CERT‑AGID offre una fotografia: i workflow agentici possono rivoluzionare la malware analysis, ma solo se sostenuti da stack locali robusti, osservabili e progettati per gestire contesti lunghi e artefatti complessi.

La sfida non è scegliere “il modello migliore”, bensì costruire sistemi agentici sostenibili, capaci di mantenere continuità investigativa nel tempo.