198 private links
Die Wissenschaftler untersuchten drei zentrale suchbasierte Ansätze: Die "Best-of-N"-Methode generiert mehrere Lösungsvorschläge und wählt den besten aus. Beam Search untersucht den Lösungsraum systematisch mit Hilfe eines Process Reward Models (PRM). Die neu entwickelte "Diverse Verifier Tree Search" (DVTS) optimiert zusätzlich die Vielfalt der gefundenen Lösungen.
Die Ergebnisse der Praxistests sind beeindruckend: Ein Llama-Modell mit nur einer Milliarde Parametern erreichte die Leistung eines achtmal größeren Modells. Bei mathematischen Aufgaben erzielte es eine Genauigkeit von fast 55 Prozent - laut Hugging Face nahe an der durchschnittlichen Leistung von Informatik-Doktoranden.
Ein 3-Milliarden-Parameter-Modell übertraf sogar die Leistung des 22-mal größeren 70-Milliarden-Parameter-Modells Llama 3.1