Der Einsatz Generativer Künstlicher Intelligenz (GenAI) zur automatischen Erstellung von Testspezifikationen und Testcode verspricht erhebliche Effizienzgewinne im Software-Testing, stellt jedoch neue Anforderungen an die Validierung dieser Artefakte. Ein rein syntaktischer Vergleich mit Referenzlösungen ist dabei nicht ausreichend, da funktionale Korrektheit und Testabdeckung so nicht zuverlässig bewertet werden können. In dieser Masterarbeit entwickelst und evaluierst du Konzepte und Metriken zur automatisierten Bewertung der Qualität und funktionalen Äquivalenz von GenAI-generierten Tests - nachvollziehbar, praxisnah und ohne 1-zu-1-Abgleich mit Golden Samples.
Ziel dieser Masterarbeit ist die systematische Recherche, Konzeption und empirische Evaluierung von Metriken und Methoden zur automatisierten Bewertung der Qualität und Korrektheit von GenAI-generierten Testspezifikationen und Testcode.
Der Fokus liegt auf Ansätzen, die:
- eine Bewertung der funktionalen Äquivalenz ermöglichen,
- Aussagen zur Testabdeckung (Coverage) erlauben,
- ohne einen exakten syntaktischen Abgleich mit Referenzlösungen auskommen.
- Einarbeitung in den Stand der Forschung zu GenAI im Software-Testing
- Analyse bestehender Metriken und Methoden zur Bewertung von Testspezifikationen und Testcode
- Konzeption geeigneter Bewertungsansätze für GenAI-generierte Tests
- Implementierung und Anwendung ausgewählter Methoden
- Empirische Evaluation anhand eines praxisrelevanten Use Cases aus der Softwareentwicklung
- Kritische Bewertung der Ergebnisse und Ableitung von Handlungsempfehlungen