DeepSeek-R1 de código abierto utiliza aprendizaje por refuerzo puro para igualar OpenAI o1, con un costo un 95 % menor

La compañía desarrolló DeepSeek-R1 utilizando aprendizaje por refuerzo puro sobre la base DeepSeek-V3 e igualó o superó a o1 en algunos puntos de referencia. Leer más
Source link