Tests uitvoeren met gesprekken met meerdere beurten

Met de gespreksevaluatie kunt u het algemene gedrag van uw agent beoordelen via een langere interactie. Het geeft aan hoe echte gebruikers communiceren met agents, waarbij elk antwoord afhankelijk is van de vorige context binnen een doorlopend gesprek. U kunt deze evaluaties gebruiken om te bepalen of een agent context kan onderhouden, om uitleg kan vragen en taken met meerdere stappen kan uitvoeren.

U kunt ook evaluaties met één antwoord uitvoeren, die geschikt zijn voor wanneer u uw agent wilt testen hoe deze specifieke vragen beantwoordt, over welke mogelijkheden het aanroept, en over de exacte formulering die wordt gebruikt in de antwoorden.

Evaluaties maken gebruik van testsets. Een testset voor gespreksevaluaties bestaat uit een groep van maximaal 20 testcases. Wanneer je een agent-evaluatie uitvoert, selecteer je een testset en voert Copilot Studio elke testcase uit die set tegen je agent.

U kunt testcases maken binnen een testset door ze te importeren met behulp van een spreadsheet of AI gebruiken om berichten te genereren op basis van het ontwerp en de resources van uw agent. Je kunt vervolgens kiezen hoe je de kwaliteit van de antwoorden van je agent voor elk testgeval binnen een testset wilt meten.

Voor meer informatie over hoe agentbeoordeling werkt, zie Over agentbeoordeling.

Om te leren hoe je een bestaande testset bewerkt, zie De details van een testset wijzigen.

Belangrijk

Testresultaten zijn 89 dagen beschikbaar in Copilot Studio. Om je testresultaten langer op te slaan, exporteer je de resultaten naar een CSV-bestand.

Een gesprekstestset maken

  1. Ga naar de beoordelingspagina van je makelaar.

Screenshot die laat zien hoe je het tabblad Evaluatie selecteert wanneer de tabbladselectie wordt gecomprimeerd vanwege de schermgrootte.

  1. Selecteer Nieuwe evaluatie en selecteer Vervolgens Gesprek.

    Schermopname van de gespreksoptie geselecteerd voor het maken van testsets.

  2. U kunt testcases met meerdere bochten maken met behulp van een van de volgende methoden:

    • Snelle gespreksset: Automatisch tien korte gesprekken genereren op basis van de beschrijving, instructies en mogelijkheden van uw agent.

    • Volledige gespreksset: Gesprekken genereren met behulp van de kennis of gedefinieerde onderwerpen van uw agent. In deze optie kunt u korte of lange gesprekken maken.

    • Gebruik uw testchat: converteer de meest recente testchat naar een testcase.

Opmerking

Gesprekstestsets bieden ondersteuning voor maximaal 20 testcases. Elke testcase ondersteunt maximaal 12 berichten, wat 6 paren vragen en antwoorden is.

  1. Typ onder Naam een naam voor uw testset.

  2. Wijzig of voeg de testmethoden toe die u wilt gebruiken. Voor gesprekstestsets kunt u de algemene kwaliteit, trefwoordovereenkomst, mogelijkhedenovereenkomst of aangepaste testmethoden voor classificatie toevoegen.

    • Voeg een nieuwe methode toe:
      1. Selecteer Testmethode toevoegen.
      2. Selecteer alle methoden waarmee je wilt testen en selecteer dan OK. Je kunt meerdere methoden toevoegen.
      3. Stel voor sommige methoden een slagingsscore in en selecteer OK. De slagingsscore bepaalt welke score resulteert in een voldoende of een onvoldoende.
      4. Sommige methoden vereisen het toevoegen van verwachte antwoorden of trefwoorden voor elk van je testcases. Voor meer informatie, zie Kies evaluatiemethoden.
    • Selecteer een bestaande testmethode om te bewerken of te verwijderen.
    Testmethode Maatregelen Testsettype Scorebepaling Configuraties
    Algemene kwaliteit Hoe goed is de reactie(s) van een testcase op basis van specifieke kwaliteiten Eén antwoord of gesprek Beoordeeld op een schaal van 100% Geen
    Betekenis vergelijken Hoe goed de betekenis van het testgeval overeenkomt met het verwachte antwoord Eén antwoord Beoordeeld op een schaal van 100% Slagingsscore, verwacht antwoord
    Capaciteitsgebruik Of de testcase alle of enkele van de verwachte resources heeft gebruikt Eén antwoord Geslaagd/onvoldoende Verwachte capaciteiten
    Trefwoordmatch Of de testcase alle of een van de verwachte zoekwoorden of zinnen gebruikte Eén antwoord of gesprek Geslaagd/onvoldoende Verwachte trefwoorden of zinnen
    Gelijkenis van tekst Hoe goed de tekst van het antwoord van het testgeval overeenkomt met het verwachte antwoord Eén antwoord Beoordeeld op een schaal van 100% Slagingsscore, verwacht antwoord
    Exacte overeenkomst Of het antwoord van het testgeval exact overeenkomt met het verwachte antwoord Eén antwoord Geslaagd/onvoldoende Verwacht antwoord
  3. Bewerk de details van de testgevallen. Alle testmethoden, met uitzondering van algemene kwaliteit, vereisen verwachte antwoorden of trefwoorden. Zie Een testset wijzigen voor meer informatie over het bewerken van testcases.

  4. Selecteer een gebruikersprofiel, selecteer of voeg vervolgens het account toe dat je wilt gebruiken voor deze testset, of ga verder zonder authenticatie. De evaluatie gebruikt dit account om tijdens het testen verbinding te maken met kennisbronnen en tools. Voor informatie over het toevoegen en beheren van gebruikersprofielen, zie Gebruikersprofielen en verbindingen beheren.

Opmerking

Geautomatiseerd testen gebruikt de authenticatie van het geselecteerde testaccount. Als je agent kennisbronnen of connecties heeft die specifieke authenticatie vereisen, kies dan het juiste account voor je test.

  1. Bewerk of maak meer testcases. Meer informatie vindt u in Testcases bewerken in een testset.

  2. Selecteer Opslaan om de testset bij te werken zonder de testcases uit te voeren of Evalueren om de testset direct uit te voeren.