DeepSeek-R1: LLM’lerde Muhakeme Yeteneğini Takviyeli Öğrenme Yoluyla Teşvik Etme
DeepSeek-AI tarafından geliştirilen DeepSeek-R1 ve DeepSeek-R1-Zero modelleri, büyük dil modellerinin (LLM) akıl yürütme yeteneklerini artırmak için pekiştirmeli öğrenme yöntemini kullanmaktadır. (Reinforcement Learning - RL). DeepSeek-R1-Zero, denetimli ince ayar (Supervised Fine-Tuning - SFT) olmadan doğrudan RL ile eğitilmiş bir…