DeepSeek logo

DeepSeek

幻方量化旗下深度求索推出的开源大模型和聊天助手

AI对话聊天
DeepSeek

详细描述

-DeepSeek 幻方量化旗下深度求索推出的开源大模型和聊天助手* 1. 背景和成立时间 幻方量化是一家国内知名的量化私募巨头,其在2023年4月成立了新的独立研究组织——深度求索,旨在探索AGI的本质,服务于全人类共同利益。 2. 技术路线 深度求索推出的开源大模型名为DeepSeekMoE,这是一种混合专家模型(MixedExpertModels,简称MoEs),用于提高大语言模型效率和准确度。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或“专家”负责,然后根据输入数据的特性选择性地激活这些“专家”。 DeepSeekMoE的模型效果领先,例如DeepSeekMoE-2B可接近MoE模型的理论上限2BDense模型性能,仅用了17.5%计算量;DeepSeekMoE-16B性能比肩LLaMA27B的同时,仅用了40%计算量;DeepSeekMoE-145B上的早期实验进一步证明该MoE架构明显领先于Google的MoE架构GShard,仅用28.5%(甚至18.2%)计算量即可匹配67BDense模型的性能。 此外,深度求索还在2023年11月发布了第一代大模型DeepSeekCoder,这个模型主要是代码生成,并且已经开源7B,33B全系列模型,包含Base模型和指令调优模型。 3. 发展历程 在成立半年后,深度求索的第一代大模型DeepSeekCoder面世,并表示免费商用,完全开源。目前,DeepSeekCoder已经开放内测。 2023年11月29日晚,幻方量化通过官微宣布,其探索AGI(通用人工智能)的新组织“深度求索(DeepSeek)”继11月初发布Coder代码模型之后,正式发布通用大语言模型:DeepSeekLLM67B。模型已完全开源,同时服务已经全面开放内测。 4. 优点 DeepSeekMoE的优点在于其多尺度(2B-16B-145B)模型效果均领先同类项目,并且官方声称DeepSeekMoE是自研的全新MoE框架,主要包含两大创新: 细粒度专家划分和共享专家分离。 DeepSeekCoder的优点在于其在代码生成任务上(使用标准数据集HumanEval、MBPP和DS-1000进行评测)分别领先9.3%、10.8%和5.9%,其中DeepSeekCoder的70亿参数版本在代码能力上达到了CodeLlama的340亿参数水平。此外,经过指令调优后的DeepSeekCoder模型更是全面超越了GPT3.5-Turbo。DeepSeekCoder还展示了用Python写一个贪吃蛇游戏,随着屏幕快速输出跳跃的代码,一段可直接运行的游戏代码即可生成;指挥DeepSeekCoder修改UI,轻松写出更难的2048游戏等。此外,DeepSeekCoder还能测试bug;作为数据分析的好帮手,学写SQL也是其必备技能;还能做题目冲击No.1。 5. 定价 关于DeepSeek的价格信息并未在搜索结果中明确给出。不过由于幻方量化公告中提到的DeepSeekMoE和DeepSeekCoder都是免费商用的,可以推测这两款产品的定价策略可能会是免费。