Om agentutvärdering

När AI-agenter tar på sig kritiska roller i affärsprocesser blir behovet av pålitlig, upprepbar testning avgörande. Agentutvärdering låter dig generera tester som simulerar verkliga scenarier för din agent. De här testerna omfattar fler frågor och konversationer snabbare än manuell testning från fall till fall. Sedan kan du mäta noggrannheten, relevansen och kvaliteten på svaren i agentens interaktioner baserat på den information som agenten kan komma åt. Genom att använda resultaten från testuppsättningen kan du optimera din agents beteende och validera att din agent uppfyller dina affärs- och kvalitetskrav.

Varför använda automatiserad testning?

Agentutvärdering erbjuder automatiserad, strukturerad testning. Det hjälper till att upptäcka problem tidigt, minskar risken för dåliga svar och upprätthåller kvaliteten i takt med att agenten utvecklas. Denna process ger en automatiserad, upprepbar form av kvalitetssäkring till agenttestning. Den ser till att agenten uppfyller företagets noggrannhets- och tillförlitlighetsstandarder och ger insyn i hur den presterar. Det har andra styrkor än att testa genom att använda testchatten.

Du kör utvärderingar och ser resultat med hjälp av Copilot Studio-gränssnittet, via Power Platform REST API:er eller genom att lägga till åtgärder i verktyg, flöden eller Power Automate.

Agentutvärdering mäter korrekthet och prestanda, inte AI-etik eller säkerhetsproblem. En agent kan klara alla utvärderingstester men ändå till exempel ge ett olämpligt svar på en fråga. Kunder bör fortfarande använda ansvarsfulla AI-granskningar och innehållssäkerhetsfilter. utvärderingar ersätter inte dessa granskningar och filter.

Begränsningar i Government Community Cloud

Agentutvärdering i Government Community Cloud (GCC)-miljöer har följande begränsningar:

  • Tillverkare kan inte lägga till en användarprofil i sina testuppsättningar. Tillverkare kan dock fortfarande köra utvärderingar utan en användarprofil.

  • Tillverkare kan inte använda likhetstestmetoden för utvärderingar. Alla andra testmetoder finns tillgängliga.

Hur agentutvärdering fungerar

Copilot Studio använder ett testfall för varje agentutvärdering. Ett testfall är en enda interaktion som simulerar hur en användare interagerar med din agent. Interaktionen kan vara en enskild fråga eller en hel konversation.

Ett testfall kan också inkludera det svar du förväntar dig att din agent ska svara. Till exempel:

  • Frågan: Vilka är dina öppettider?

  • Det förväntade svaret: Vi har öppet från 9.00 till 17.00 måndag till fredag.

Genom att använda agentutvärdering kan du generera, importera eller manuellt skriva en grupp testfall. Denna grupp av testfall kallas en testuppsättning. Ett testset tillåter dig att:

  • Kör flera testfall som täcker ett brett spektrum av funktioner samtidigt, istället för att ställa en fråga till din agent en i taget.

  • Analysera din agents prestation med en lättsmält aggregerad poäng och zooma även in på enskilda testfall.

  • Testa förändringar hos dina agenter med samma testuppsättning, så att du har en objektiv standard för att mäta och jämföra förändringar i prestation.

  • Skapa snabbt nya testuppsättningar eller modifiera befintliga för att täcka förändrade agenters kapacitet eller krav.

Varje testset kan utvärdera din agent med flera testmetoder samtidigt.

Du kan också välja en användarprofil som ska fungera som stimulerad användare. Agenten kan vara konfigurerad att svara olika användare på olika sätt, eller tillåta tillgång till resurser på olika sätt.

När du väljer en testuppsättning och kör en agentutvärdering skickar Copilot Studio frågorna i testfallen, registrerar agentens svar, jämför svaren mot förväntade svar eller en kvalitetsstandard och tilldelar en poäng till varje testfall. Du kan också se detaljer, transkription och aktivitetskarta för varje testfall samt vilka resurser din agent använde för att skapa svaret.

Skapa en omfattande utvärderingsstrategi

Innan du kör utvärderingar definierar du hur framgång ser ut för din agent och bestämmer vilka scenarier som är viktigast för dina affärsresultat. En tydlig strategi hjälper dig att välja rätt testmetoder, prioritera testfall med hög effekt och tolka resultat med rätt kontext.

Integrera utvärderingar i automatiserade flöden

Agentutvärdering stöder automatisering så att tillverkare kan köra utvärderingar utan manuella åtgärder. Genom att använda REST-API:er eller Power Platform-anslutningsappar kan du programmatiskt utlösa utvärderingskörningar och integrera testning i automatiserade arbetsflöden, till exempel CI/CD-pipelines (kontinuerlig integrering och kontinuerlig distribution). Med den här metoden kan du köra testuppsättningar i stor skala och verifiera agentbeteendet när ändringar införs, utan att kräva manuell körning i Copilot Studio.

Testchatt kontra agentutvärdering

Varje testmetod ger dig olika insikter om din agents egenskaper och beteende:

Testchatt:

  • Tar emot och svarar på en fråga i taget. Det är svårt att upprepa samma tester flera gånger.

  • Låter dig testa en hel session med flera meddelanden.

  • Låter dig interagera med din agent som användare genom att använda ett chattgränssnitt.

Agentutvärdering:

  • Kan skapa och köra flera testfall samtidigt med hjälp av en testuppsättning. Du kan upprepa tester genom att testa med samma testuppsättning.

  • Kan testa en fråga och ett svar per testfall eller en konversation per testfall. Du har dock mindre kontroll över konversationerna än när du använder testchatten.

  • Välj olika användarprofiler för att simulera olika användare utan att behöva genomföra interaktionerna själv.

När du testar en agent, använd både testchatten och agentutvärderingen för att få en fullständig bild av din agent.