DeepSeek-R1 – Yaylai

28 Şubat 2025

DeepSeek-R1: LLM’lerde Muhakeme Yeteneğini Takviyeli Öğrenme Yoluyla Teşvik Etme

DeepSeek-AI tarafından geliştirilen DeepSeek-R1 ve DeepSeek-R1-Zero modelleri, büyük dil modellerinin (LLM) akıl yürütme yeteneklerini artırmak için pekiştirmeli öğrenme yöntemini kullanmaktadır. (Reinforcement Learning - RL). DeepSeek-R1-Zero, denetimli ince ayar (Supervised Fine-Tuning - SFT) olmadan doğrudan RL ile eğitilmiş bir…