0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浅谈DeepSeek核心技术与应用场景

讯飞开放平台 来源:讯飞开放平台 2025-02-18 09:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek的横空出圈,仿佛重现了两年前ChatGPT风靡全球的盛况。其开源策略和低成本的模式,正推动人工智能迎来一波新的发展浪潮。卓越模型能力的背后,DeepSeek在技术上有哪些创新?它又将如何改变我们的生活和产业?

2月15日,讯飞开放平台携手Datawhale、城西大走廊高联会在位于杭州的浙江大学校友企业总部经济园举办了2025年开发者TALK首站活动。来自讯飞开放平台以及行业、研究机构的技术专家们,揭秘DeepSeek核心技术、分享DeepSeek精调方法和应用构建,为线上线下4000+开发者带来了一场干货满满的分享。

全方位模型服务,助力开发者应用创新

自2022年大模型发布以来,大模型应用呈现爆发式增长,逐步迈入“深水区”,与场景的结合也愈发紧密,行业内逐步形成共识:通用模型+专有云模型才能更好地解决场景问题。

目前,大模型应用主要是模型能力+数据,能力有通用能力与定制能力,数据有通用数据与个性化数据。例如,AI+代码是典型的“通用能力+通用数据能力”简单组合;AI+会议是“通用能力+个性化数据”简单组合。未来大模型更好地进入企业一定是定制能力+个性化数据的多能力复杂组合。而未来大模型开发的机会在:模型能力定制化、产品能力复杂化、数据能力个性化。讯飞星辰MaaS平台总监张林芳在《讯飞星辰MaaS平台模型定制到智能体构建》主题分享中表示。

应对模型能力定制化需求,讯飞发布的星辰MaaS平台,提供包含数据构建、模型选型、精调训练、效果评估、大模型云+端托管以及数据回流的成熟精调流水线,助力开发者高效完成效果定制,构建数据飞轮,持续推进大模型迭代。其中,在模型选型上,星辰MaaS平台秉承开放理念,支持星火+主流开源的36个模型精调,开放人设、医疗等场景模型精调。近期,已经业界首发了DeepSeek全系模型精调,推理API限时免费,支持独享部署,即销即用。

应对产品能力组合复杂化需要,讯飞发布了星辰智能体应用开发平台。星辰智能体应用开发平台以MoM混合应用架构为核心,提供从应用开发到测试、优化一整套大模型应用开发工具链。支持讯飞1+N模型,开源优质DeepSeek模型,和所有微调模型组合构建应用。面对硬件产品接入大模型遇到的业务需求、开发技术栈、软硬环境等问题,星辰智能体应用开放平台提供了专门的SDK开发框架,让开发者专注于硬件产品创新,用最短路径实现产品成功。

应对数据能力个性化需求,讯飞则首发了混域搜索技术,支持个人私域知识,企业知识库以及IT系统私域知识,和互联网信息进行统一的搜集分析,形成大模型外挂知识。通过这套技术,知识召回准确率提升30%,长文本知识融合准确率提升40%,句子级知识溯源准确率达90%。

从R1-Zero到R1,揭秘DeepSeek核心技术

DeepSeek展现出的强大推理能力,让人震惊的同时,也让许多开发者对其背后的技术细节充满兴趣。它在技术上有哪些突破?哪些是站在前人的肩膀上优化的?哪些是自己的原创创新?在现场,Datawhale Hugging LLM开源项目负责人长琴深度剖析了DeepSeek的核心技术点,期望能为开发者研究大模型带来启发。

首先是基于纯规则强化学习的DeepSeek-R1-Zero,不仅在训练过程中展现出的思考和自我反思能力,使语言模型更接近人类的思维方式,而且效果还不错。当然,瑕疵是语言混合和可读性不友好。紧跟着就是两个问题:少量高质量数据SFT后能否让后续的RL效果进一步变好?模型能否同时兼容推理和通用模式?R1通过先用少量高质量数据SFT模型作为R1-Zero的起点(冷启动),然后使用R1-Zero的RL方法(增加了语言一致性,让结果更可读)训练得到的模型来生成高质量数据,然后再做SFT和对齐,使得模型不仅在推理任务上表现出色,在非推理的常规任务上也取得了优异的效果。

DeepSeek-R1的相关技术研究也给开发者带来诸多启示。比如Oat-Zero的相关研究发现强化学习(RL)能将Base的表面自我反思转化为有效自我反思,但是长度并不一定增加,而且Base模型也会Aha Moment;再比如DeepScaleR的相关研究中发现强化学习(RL) 缩放也可以表现在小模型 (1.5B) 中,高质量的SFT+RL结合能达到更好效果;再比如LIMO、s1等相关研究中发现 少量SFT(1000条)同样可以激活推理能力;以及模型越大越新越好、无论Instruct还是Base模型都可以验证R1-Zero等。长琴在分享中提到。

AI驱动科研范式变革,开启新的大航海时代

从药物研发到农业育种,从气象预测到海洋智能预报,AI正在改变人类进行科学研究的方式。2024年的诺贝尔物理学奖、化学奖都颁给AI领域,再次将AI推到了科学舞台的中央,标志着AI在科学研究中的重要地位得到了认可。

AI For Science的典型案例就是蛋白质折叠模型AlphaFold。传统方法每年只能解析少量蛋白质结构,Alphafold已经预测了超过2亿种蛋白质结构,推动了生命科学的巨大进步,已拥有来自190个国家的200多万用户。以此模型为基础,对于科研设备、科学人员、科学数据和科学流程都有很大的帮助。之江实验室助理研究员张骥在分享中举例说。

AI正在开启人类科学发展新的大航海时代。张骥认为,在AI驱动科学范式变革方面,模型、数据、算力是关键因素。

在科研领域,中国科学院文献情报中心与科大讯飞股份有限公司共同研发的基于科技文献大模型的智能知识服务平台——星火科研助手,帮助研究人员对文献进行深度解读、提炼,提升科研效率。累计服务科研用户9.3万人,功能调用次数240万次+,用户覆盖全国1300多所高校。用户可在讯飞星火APP/网页端搜索“星火科研助手”体验。

融合行业场景,生成式AI驱动机器人行业变革

陆地、隧道、天上、水里,各类形态的智能机器人正在不同行业应用,尤其是在工业领域,机器人不仅能保障人员安全,还可大大提高工作的效率和准确性。生成式AI技术的出现也为机器人行业带来了根本性变化。

从ANI(狭义人工智能)和AGI(通用人工智能)的区别出发,申昊科技算法工程师郑程睿介绍了公司在故障检测、数字孪生、医院查房机器人和人形机器人四款应用上,进行的大模型技术探索。以检测输电塔是否有鸟巢为例,因为物理场景数据很稀少,运用无人机逐个进行拍照成本过高,而利用少量图片训练Stable Diffusion和LoRA模型生成多样化的图像,则可以做到降本增效。

对于具身智能未来的发展,郑程睿认为,当前具身智能的发展仍处于初级阶段,未来具身智能应该是两种大模型:视觉语言动作模型和视觉语言导航模型,也可以与深度思考推理模型结合。

除了精彩的演讲之外,本次活动还设置了AI面对面交流环节。与会开发者以分组的形式围绕“DeepSeek的应用创新、大模型未来发展趋势”等问题,与分享嘉宾进行了讨论。

DeepSeek的爆火不仅从技术到产业带来了一场前所未有的技术变革,也为开发者带来了前所未有的机遇。现在,进入讯飞星辰MaaS平台官网,通过DeepSeek精调服务,开发者即可在极短时间内(最快15分钟)以超低成本(最低仅需数元)打造专属定制模型,创建新的AI应用。

致力于通过前沿技术分享、优秀项目分享推介、面对面讨论,为来自企业、高校、科研院所的开发者提供沉浸式学习与交流平台。自2023年11月22日开启第一站以来,开发者TALK在深圳、武汉、南京、成都等地留下足迹,链接了上千名开发者,帮助他们将想法变成了更多的创意和落地案例,推动人工智能产业繁荣。

AI技术的发展日新月异,2025年,开发者TALK将继续举办多形式活动,聆听开发者需求,帮助开发者便捷地将大模型技术应用在实际业务中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 讯飞开放平台

    关注

    0

    文章

    20

    浏览量

    11766
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4967
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2812

原文标题:揭秘DeepSeek核心技术与应用构建 | 开发者TALK开年首站落地杭州

文章出处:【微信号:讯飞开放平台,微信公众号:讯飞开放平台】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    感谢电子发烧友提供学习Deepseek核心技术这本书的机会。 读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解D
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    感谢平台提供的书籍,实物如下 这本书主讲从年前开始火热的DeepSeek 。书籍看起来轻薄,但言简意赅,通俗易懂,总览全局,比较精炼。 第一章 介绍DeepSeek的一系列技术突破与创新。 第二章
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力机制等模块
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    前言 非常感谢发烧友论坛提供的《DeepSeek 核心技术揭秘》书籍试读活动!Deepseek-V3从去年年底出来之后,我就在密切关注着。今年春节前,Deepseek-R1的出现彻底点
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术DeepSeek 核心技术揭秘

    , incentivize.”也就是说,不要去“教”模型,而要“激励”它自主探索。 《DeepSeek核心技术揭秘》是剖析 DeepSeek 技术原理的专业
    发表于 06-09 14:38

    科通技术推出DeepSeek+AI芯片全场景方案

    2025年,随着DeepSeek新版本的开源,AI技术掀起了全球普及的浪潮。在这股浪潮中,AI芯片作为关键算力支撑,其应用场景不断拓展,从云端到本地,再到终端设备,AI芯片无处不在。深圳市科通
    的头像 发表于 03-24 10:33 1063次阅读

    什么是边缘计算网关?深度解析边缘计算网关的核心技术与应用场景

    在物联网(IoT)和工业 4.0 的浪潮中,边缘计算网关正成为连接物理世界与数字世界的核心枢纽。这种设备不仅能够实时处理数据,还能减轻云端负担,提升系统响应速度。本文将从技术原理、架构设计、应用场景
    的头像 发表于 03-24 10:02 1320次阅读
    什么是边缘计算网关?深度解析边缘计算网关的<b class='flag-5'>核心技术</b>与应<b class='flag-5'>用场景</b>

    取样示波器的技术原理和应用场景

    取样示波器,也称为采样示波器,是一种重要的电子测量仪器,其技术原理和应用场景可以归纳如下:技术原理取样示波器的根本原理是利用等效取样技术,将周期性高频(或高速)信号变换为与原来信号波形
    发表于 03-12 14:34

    频域示波器的技术原理和应用场景

    频域示波器,其主要技术原理基于信号的傅里叶变换理论,通过快速傅里叶变换(FFT)算法将时域信号转换为频域信号,从而进行频谱分析。以下是对频域示波器的技术原理和应用场景的详细分析:一、技术
    发表于 03-11 14:37

    DeepSeek的100个应用场景

    的训练成本实现了数学、编程等核心领域比肩GPT-o1的卓越性能。短短几天内,DeepSeek迅速登顶中美两区苹果应用市场免费榜榜单,亚马逊、微软、阿里云、百度智能云、三大电信运营商等公司先后宣布接入。 据
    的头像 发表于 03-05 11:28 1797次阅读

    敏捷合成器的技术原理和应用场景

    敏捷合成器,作为一种高性能的信号发生器,其技术原理和应用场景值得深入探讨。技术原理敏捷合成器的技术原理主要基于先进的频率合成技术和数字信号处
    发表于 02-20 15:25

    直接数字式频谱分析仪的技术原理和应用场景

    直接数字式频谱分析仪的技术原理和应用场景如下:一、技术原理直接数字式频谱分析仪采用数字信号处理技术,其核心技术在于对输入信号进行离散傅里叶变
    发表于 02-17 15:00

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的两个不同定位的大模型,其核心差异主要体现在目标场景
    发表于 02-14 02:08

    时域反射计的技术原理和应用场景

    时域反射计(TDR,Time Domain Reflectometer)的技术原理和应用场景可以归纳如下:技术原理时域反射计的基本原理是利用反射波来测量电路或传输线中的阻抗变化。其核心
    发表于 02-11 14:39

    深入探讨DeepSeek大模型的核心技术

    导读 本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。   一、关于DeepSeek公司及其大模型 1.1 公司概况
    的头像 发表于 02-10 10:49 3320次阅读
    深入探讨<b class='flag-5'>DeepSeek</b>大模型的<b class='flag-5'>核心技术</b>