Automatiseer testen met agentevaluatie

Naarmate AI-agenten kritieke rollen op zich nemen in bedrijfsprocessen, wordt de noodzaak van betrouwbare, herhaalbare tests essentieel. Agent-evaluatie stelt je in staat tests te genereren die realistische scenario's voor je agent simuleren. Deze tests behandelen meer vragen en gesprekken sneller dan handmatige geval-per-geval tests. Vervolgens kunt u de nauwkeurigheid, relevantie en kwaliteit van antwoorden van de interacties van uw agent meten op basis van de informatie die de agent kan openen. Door gebruik te maken van de resultaten uit de testset kun je het gedrag van je makelaar optimaliseren en valideren dat je makelaar voldoet aan de eisen van jouw bedrijf en kwaliteit.

Waarom geautomatiseerd testen gebruiken?

Agent-evaluatie biedt geautomatiseerde, gestructureerde tests. Het helpt problemen vroegtijdig te ontdekken, vermindert het risico op slechte antwoorden en behoudt de kwaliteit naarmate de agent zich ontwikkelt. Dit proces brengt een geautomatiseerde, herhaalbare vorm van kwaliteitsborging naar agententests. Het zorgt ervoor dat de agent voldoet aan de nauwkeurigheids- en betrouwbaarheidsstandaarden van uw bedrijf en geeft transparantie over hoe deze presteert. Het heeft andere sterke punten dan testen via de testchat.

U voert evaluaties uit en bekijkt resultaten met behulp van de Copilot Studio-interface, via Power Platform REST API's of via het toevoegen van acties in hulpprogramma's, stromen of Power Automate.

Agentbeoordeling meet de correctheid en prestaties, niet de AI-ethiek of veiligheidsproblemen. Een agent kan alle evaluatietests doorstaan, maar bijvoorbeeld toch een ongepast antwoord op een vraag geven. Klanten moeten nog steeds verantwoorde AI-beoordelingen en filters voor inhoudsveiligheid gebruiken; evaluaties vervangen deze beoordelingen en filters niet.

Beperkingen van de Community Cloud van overheid

Agent-evaluatie in Government Community Cloud (GCC) omgevingen kent de volgende beperkingen:

  • Makers kunnen geen gebruikersprofiel toevoegen aan hun testsets. Makers kunnen echter nog steeds evaluaties uitvoeren zonder gebruikersprofiel.

  • Makers kunnen de gelijkenistestmethode niet gebruiken voor evaluaties. Alle andere testmethoden zijn beschikbaar.

Hoe agent-evaluatie werkt

Copilot Studio gebruikt een testcase voor elke agentevaluatie. Een testcase is één interactie die simuleert hoe een gebruiker met uw agent zou communiceren. De interactie kan één vraag of een heel gesprek zijn.

Een testgeval kan ook het antwoord bevatten dat je verwacht dat je makelaar zal geven. Voorbeeld:

  • De vraag: Wat zijn je openingstijden?

  • De verwachte reactie: We zijn open van 9.00 tot 17.00 uur van maandag tot vrijdag.

Door middel van agent-evaluatie kun je een groep testgevallen genereren, importeren of handmatig schrijven. Deze groep testgevallen wordt een testset genoemd. Een testset stelt je in staat om:

  • Voer meerdere testcases uit die een breed scala aan mogelijkheden tegelijk bestrijken, in plaats van je agent één vraag tegelijk te stellen.

  • Analyseer de prestaties van je agent met een gemakkelijk te begrijpen totaalscore en zoom ook in op individuele testcases.

  • Test wijzigingen aan je agenten met dezelfde testset, zodat je een objectieve standaard hebt om veranderingen in prestaties te meten en te vergelijken.

  • Maak snel nieuwe testsets of pas bestaande aan om te voldoen aan veranderende agentcapaciteiten of -eisen.

Elke testset kan je agent evalueren met meerdere testmethoden tegelijk.

U kunt ook een gebruikersprofiel kiezen om te fungeren als de gestimuleerde gebruiker. De agent kan zo zijn ingesteld dat hij op verschillende manieren op verschillende gebruikers reageert, of toegang tot bronnen op verschillende manieren toestaat.

Wanneer u een testset selecteert en een agentevaluatie uitvoert, verzendt Copilot Studio de vragen in de testcases, registreert het de antwoorden van de agent, vergelijkt het deze antwoorden met verwachte antwoorden of een kwaliteitsstandaard, en wijst het een score toe aan elke testcase. Je kunt ook de details, transcriptie en activiteitenkaart voor elk testgeval zien en welke bronnen jouw agent gebruikte om de respons te maken.

Een uitgebreide evaluatiestrategie maken

Voordat u evaluaties uitvoert, definieert u hoe succes eruitziet voor uw agent en bepaalt u welke scenario's het belangrijkst zijn voor uw bedrijfsresultaten. Een duidelijke strategie helpt u bij het kiezen van de juiste testmethoden, het prioriteren van testcases met hoge impact en het interpreteren van resultaten met de juiste context.

Evaluaties integreren in geautomatiseerde stromen

Agentevaluatie ondersteunt automatisering, zodat makers evaluaties kunnen uitvoeren zonder handmatige tussenkomst. Met behulp van REST API's of Power Platform-connectors kunt u programmatisch evaluatieuitvoeringen activeren en testen integreren in geautomatiseerde werkstromen, zoals CI/CD-pijplijnen (continue integratie en continue implementatie). Met deze methode kunt u testsets op schaal uitvoeren en agentgedrag valideren wanneer er wijzigingen worden aangebracht, zonder dat handmatige uitvoering in Copilot Studio is vereist.

Testchat versus agent-evaluatie

Elke testmethode geeft je verschillende inzichten in de kwaliteiten en het gedrag van je agent:

Testchat:

  • Ontvangt en beantwoordt één vraag tegelijk. Het is moeilijk om dezelfde tests meerdere keren te doen.

  • Hiermee kun je een volledige sessie testen met meerdere berichten.

  • Stelt je in staat om als gebruiker met je agent te communiceren via een chatinterface.

Agentbeoordeling:

  • Kan meerdere testcases tegelijk maken en uitvoeren met behulp van een testset. U kunt tests herhalen door te testen met dezelfde testset.

  • Kan één vraag en één antwoord per testcase testen of één gesprek per testcase. U hebt echter minder controle over de gesprekken dan wanneer u de testchat gebruikt.

  • Kies verschillende gebruikersprofielen om verschillende gebruikers te simuleren zonder de interacties zelf te hoeven uitvoeren.

Wanneer je een agent test, gebruik dan zowel de testchat als de agentenbeoordeling voor een volledig beeld van je agent.