Tento článek popisuje systémy odevzdané týmem 6 v soutěži ChatEval, která se koná v rámci DSTC 11 Track 4. Představuje tři různé přístupy k předpovídání kvality odpovědí chatbotů na úrovni tahů na základě velkých jazykových modelů (LLM).
Uvádíme zlepšení oproti základnímu systému pomocí dynamických příkladů s několika příklady z vektorového úložiště pro ChatGPT prompty. Analyzujeme také výkonnost dalších dvou přístupů a uvádíme potřebná zlepšení pro budoucí práci.
Tyto t ři systémy jsme vyvinuli během pouhých dvou týdnů, což ukazuje potenciál LLM pro tuto úlohu. Ablační studie provedená po soutěži ukazuje, že nové modely Llama 2 zmenšují rozdíl mezi ChatGPT a open-source LLM.
Zjistili jsme však, že modely Llama 2 nevyužívají příklady s několika příklady stejným způsobem jako ChatGPT.