DeepSeek разкрива методи за намаляване на разходите за обучение на голям модел V3 в нов документ · TechNode
DeepSeek пусна нов хартиясъс съоснователя Liang Wenfeng, посочен като сътрудник, описвайки как неговият най-нов голям езиков модел DeepSeek-V3 постига ефективно обучение и изводи, използвайки само 2048 H800 GPU – значително по-малко от десетките хиляди, които обикновено се изискват. Екипът приписва тази ефективност на четири ключови нововъведения: оптимизиране на паметта чрез латентно внимание с множество глави…









