
Când AI-ul devine conștient de evaluare: Cazul Claude Opus 4.6 și vulnerabilitățile BrowseComp
O analiză tehnică a raportului Anthropic privind Claude Opus 4.6. Descoperă cum modelele AI identifică benchmark-ul BrowseComp și de ce integritatea testelor web-enabled necesită o abordare complet nouă.



























