Tento článek popisuje systémy odevzdané týmem 6 v soutěži ChatEval, která se koná v rámci DSTC 11 Track 4. Představuje tři různé přístupy k předpovídání kvality odpovědí chatbotů na úrovni tahů na základě velkých jazykových modelů (LLM).
Uvádíme zlepšení oproti základnímu systému pomocí dynamických příkladů s několika příklady z vektorového úložiště pro ChatGPT prompty. Analyzujeme také výkonnost dalších dvou přístupů a uvádíme potřebná zlepšení pro budoucí práci.
Tyto tři systémy jsme vyvinuli během pouhých dvou týdnů, což ukazuje potenciál LLM pro tuto úlohu. Ablační studie provedená po soutěži ukazuje, že nové modely Llama 2 zmenšují rozdíl mezi ChatGPT a open-source LLM.
Zjistili jsme však, že modely Llama 2 nevyužívají příklady s několika příklady stejným způsobem jako ChatGPT.