Tech HumanX Workflow agentici e analisi malware: dal CERT‑AGID uno studio sui modelli locali e sulla sostenibilità operativa Laura Biarella 24 May 2026 AI Digitalizzazione Workflow agentici e analisi malware, un nuovo studio del CERT‑AGID analizza l’impiego di modelli linguistici e orchestratori locali nella malware analysis. La ricerca mostra come, nei workflow agentici complessi, il vero limite non sia il modello in sé, ma la capacità dell’intero stack, tool, orchestratore, runtime e gestione del contesto, di sostenere sessioni lunghe, multi‑stage e ricche di artefatti. I test evidenziano vantaggi e criticità di Codex, Ollama, llama‑server e orchestratori alternativi, indicando quali combinazioni risultano oggi più sostenibili per CERT e SOC. Analisi del CERT‑AGID, perché i workflow agentici stanno cambiando la malware analysis L’uso di agenti autonomi nella cybersecurity sta trasformando la malware analysis da semplice attività di triage a un processo investigativo complesso, capace di correlare artefatti multilivello, orchestrare tool locali e mantenere continuità di ragionamento lungo sessioni iterative. Il paper del CERT‑AGID parte da un caso reale: una skill eseguita tramite Codex CLI con modello gpt‑5.4 ha ricostruito autonomamente una catena multi‑stage, superando parsing corrotti, offuscamenti e componenti nativi. Come si legge nel documento: l’agente ha aggirato il parsing rotto estraendo direttamente il file DEX dal container tramite tecniche di carving. Ma questo successo ha evidenziato un limite strutturale: il consumo cumulativo di token e la saturazione del contesto rendono i workflow cloud costosi e difficili da sostenere nel lungo periodo. È possibile portare questi workflow in locale? Il CERT‑AGID ha avviato una campagna di test su tre direttrici: – Benchmark Codex CLI + Ollama su modelli open‑weights con tool‑use nativo. – Test di robustezza del runtime locale tramite un client custom (modelcli) e llama‑server. – Analisi qualitativa con Claude + Ollama per valutare l’impatto dell’orchestratore sulla tenuta della chain analitica. Il documento sottolinea che il comportamento osservato dipende dallo stack nel suo complesso, non solo dal modello. Cosa mostrano i benchmark: modelli, orchestratori e runtime a confronto Codex + Ollama: il miglior compromesso operativo Nei test comparativi su JavaScript offuscato, la combinazione più equilibrata è risultata: – qwen3‑coder:30b – Ollama come backend – Codex CLI come orchestratore Il modello ha mostrato la migliore progressione analitica, pur con limiti nella fase finale. Il paper lo definisce “Best Operational Compromise”. modelcli + llama‑server, massimo controllo sul runtime locale Il client custom ha permesso: – compattazione del contesto più affidabile – gestione più chiara degli errori di tool‑use – sessioni isolate e più stabili – riduzione dei loop ripetitivi Il modello Qwen3‑30B‑A3B‑GGUF ha riconosciuto pattern di offuscamento e indicatori utili alla triage, confermando che la stabilità del runtime può contare più della potenza del modello. Claude + Ollama: meno deragliamenti, ma tempi più lunghi Claude ha mostrato: – maggiore stabilità del backend – assenza di loop evidenti – ma tempi di chiusura molto più lunghi – e, in tre casi su quattro, nessun output utile entro il timeout Il paper osserva che Claude tende a mantenere il backend occupato più a lungo, lasciando aperta la possibilità di una chain analitica più profonda. Il punto critico non è il modello, è lo stack La ricerca evidenzia un principio chiave per CERT e SOC: la vera metrica non è il modello, ma la sostenibilità del workflow. Nei workflow agentici complessi, i fattori determinanti sono: – gestione del contesto – disciplina del tool‑use – stabilità del runtime – telemetria affidabile – orchestrazione rigorosa Il documento avverte che «l’esplosione dei dati intermedi mette a durissima prova i runtime locali, saturando il contesto e portando il sistema al delirio operativo» . Perché i modelli locali diventeranno sempre più importanti Il paper sottolinea che i costi dei workflow cloud e i vincoli di riservatezza dei campioni malware rendono necessario spostare parte delle analisi su infrastrutture locali. Ma per farlo servono: – workflow atomici, non monolitici – orchestratori osservabili – tool‑use controllato – modelli quantizzati ma stabili – runtime adattati alla macchina Il rischio, avverte il CERT‑AGID, è abituarsi troppo alla fluidità dei modelli cloud e perdere autonomia tecnica. Conclusione Lo studio del CERT‑AGID offre una fotografia: i workflow agentici possono rivoluzionare la malware analysis, ma solo se sostenuti da stack locali robusti, osservabili e progettati per gestire contesti lunghi e artefatti complessi. La sfida non è scegliere “il modello migliore”, bensì costruire sistemi agentici sostenibili, capaci di mantenere continuità investigativa nel tempo.