Reprezentace ve velkých jazykových modelech obsahují více typů genderových informací. Zaměřujeme se na dva typy takových signálů v anglických textech: faktické genderové informace, což je gramatická nebo sémantická vlastnost, a genderové zkreslení, což je korelace mezi slovem a konkrétním pohlavím.
Můžeme rozpojit vnoření modelu a identifikovat komponenty kódující oba typy informací sondováním. Naším cílem je snížit stereotypní zkreslení v reprezentacích při zachování faktického genderového signálu.
Naše filtrační metoda ukazuje, že je možné snížit zkreslení genderově neutrálních profesních názvů bez výrazného zhoršení schopností jazykového modelování. Zjištění lze aplikovat na jazykovou generaci, aby se zmírnilo spoléhání na stereotypy při zachování genderové shody v koreferencích.