下午察:AI界拼多多开拓大模型新赛道

原本需要投入上亿美元才能训练好的大语言模型,被中国一家名不见经传的初创公司给硬生生地压至数百万美元就能训练出来。

这家来自杭州的初创公司深度求索(DeepSeek)12月26日在微信公众号上宣布全新的开源大模型DeepSeek V3,并大方公布53页的技术论文,披露该模型的所有训练细节及评测结果。

评测显示,上述模型在考察百科知识、代码、数学能力等评测集中得分超过阿里云Qwen2.5-72B和Meta的Llama-3.1-405B这两大开源模型,甚至与世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不分伯仲。