Claude verstehen lernen: Anthropic setzt auf Werte-Pädagogik statt reiner Optimierung
Anthropic verfolgt einen neuen Ansatz im KI-Alignment: Statt Claude lediglich mit Regeln und Reinforcement-Learning auf erwünschtes Verhalten zu trainieren, soll das Modell die zugrundeliegenden Prinzipien und ethischen Begründungen aktiv vermittelt bekommen. Die Idee dahinter…