0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 招聘 | NVIDIA 最新热招岗位!一起迎接未来加速计算!

NVIDIA英伟达 来源:未知 2023-06-14 18:35 次阅读

NVIDIA 计算架构团队和NVIDIA 计算专家团队正在热招!

如果你对加速计算领域充满热情,并且希望与优秀的技术专家一起合作,那么这个机会将是你展现才华的优质平台,快来加入

NVIDIA 计算架构团队

热门岗位:

简历请投递至:

sh-recruitment@nvidia.com

Deep Learning Performance Architect - Triton / LLM - TensorRT

工作内容:围绕深度学习端到端 AI 软件全栈,包括但不限于:训练框架、核心计算库、推理优化工具(比如 TensorRT)、AI 编译器、模型压缩等全栈软件栈,以及可以在 AI 软件全栈基础上影响到下一代甚至下两代硬件架构的特性设计。

技能要求: 良好 C++ 编程,熟悉 AI 软件栈底层或者计算机体系结构,熟悉上层算法Python 是加分项。

工作地点:北京 / 上海

Deep Learning Performance Architect - TensorRT

工作内容:NVIDIA 深度学习推理引擎 TensorRT 的设计、开发和维护工作(比如,TensorRT 模型导入的流程和相关工具,图优化,算子的 CUDA 实现及代码生成,算子性能优化等),以及对当前主流的深度学习模型使用 TensorRT 进行推理的性能进行分析和优化。同时,还将与 NVIDIA GPU 体系结构设计团队合作,来推动 NVIDIA 深度学习解决方案的软硬件协同设计和研发。

技能要求:熟练掌握 C++ 编程。


加分技能 / 经验: 度学习框架 / 深度学习编译器开发,性能分析 / 建模 / 优化相关的方法论 / 工具,计算机体系结构相关知识,CUDA kernel 开发 / 优化。

工作地点:上海 / 北京


Deep Learning Performance Architect - Operator

工作内容:针对不同 GPU 架构为 TensorRT、cuDNN、cuBLAS2、cuSPARSE 等深度学习算子库提供高性能基础算子以及算子融合实现,包含在线代码生成,代码融合等相关开发工作,以及根据当代 GPU 优化瓶颈影响后续硬件架构特征设计和验证工作。

技能要求:良好 C++ 编程、熟悉计算机体系结构,有 TVM、MLIR 相关开发经验是加分项。

工作地点:上海 / 北京

Deep Learning Performance Architect

工作内容:围绕运算架构的全栈优化,包括但不限于:深度学习模型分析与预测、架构的性能分析、编译器性能分析,以及对主流运算架构和软件生态的分析。使 NVIDIA 软件生态与计算架构更好的支持主流应用。

技能要求:良好 C++ / Python 编程,熟悉 AI 软件或者计算机体系结构。

工作地点:上海

上下滑动查看更多职位详情

团队介绍

算力是 AI 时代的基础设施,而“后摩尔定律时代”,软硬件协同设计,才是加速计算的未来!

NVIDIA 计算架构团队历经 CUDA 并行编程模型从起步至今的所有阶段,其间参与了数代通用 GPU 计算架构及之上的包括 cuDNN、TensorRT、底层高性能算子、并行编程语言在内的加速软件栈的研发工作。该团队同时参与关键机器学习模型的算法及框架优化。

目前,该团队开放多个职位等你的加入!与我们共同书写下一代 AI 计算架构的未来!

NVIDIA 计算架构团队旨在推动算法、并行编程模型、核心加速软件库及 GPU 体系结构的协同设计和演化,在高速发展的深度学习算法与 GPU 硬件体系结构之间建立桥梁,并研发先进的软硬件协同的加速计算解决方案。

该团队从高性能计算、深度学习、自动驾驶等计算应用领域出发,跟踪学界、工业界前沿算法,并掌握其发展方向;通过对前沿算法(比如:神经网络结构)的深入理解,分析并提出芯片架构的需求,包含指令集、编程模型、计算能力、访存带宽、片上存储、片上网络及网络互联等。

同时,承担基于架构的计算加速软件栈的开发及产品化工作。自底层加速核心算子开发及优化,基于硬件加速的并行编程模型的研发和编译,TensorRT、cuDNN 等核心加速库,直到上层训练框架、编译优化。以及,针对模型的混合精度、稀疏矩阵训练及量化方法开发。

上下滑动查看更多详情

团队发展

该团队基于硬件架构开发软件、编程模型、算法实现,通过算法、软件开发实践反馈并推动硬件架构优化,形成闭环,最终实现软件、编程模型及硬件架构的协同演化和迭代,达到极致计算加速的目标:

  • 建立下一代芯片性能模型、搭建芯片性能分析平台、调研下一代芯片新特性

  • 研发及设计新的加速指令、开发原型代码及编程模型、迭代优化下一代芯片架构

  • 跟踪下一代芯片新特性在应用中的落地实现(算子实现、编译等)

  • 开发集成最终软件产品库 - TensorRT,cuDNN

  • 优化训练框架(MLPerf 各项优化)

  • 开发混合精度、稀疏矩阵及量化方法

上下滑动查看更多详情

NVIDIA 计算专家团队

热门岗位:

简历请投递至:

sh-recruitment@nvidia.com

Developer Technology Engineer

工作内容:

  • 包括大语言模型、生成式 AI、推荐系统在内的深度学习、机器学习、数据分析领域新技术,以及编程实现、优化、模型、算法等方面的研究和开发;

  • 工业界实际应用的深度分析和优化,以保证该类应用在当前和未来的 NVIDIA 架构上都能保持卓越性能;

  • 为关键客户(业界头部公司)提供合适的 AI 解决方案;

  • 和 GPU / CPU / DPU 架构团队、研究团队、应用库和开发工具团队、系统软件团队等紧密合作来影响下一代产品架构、软件平台和编程模式的设计与开发;

  • 与世界各地的优秀同事一起助力深度学习技术在互联网、交通、金融、医疗等各领域的落地。

基本要求:

  • 计算机科学相关专业优秀硕士、博士毕业生;

  • 拥有良好的 C / C++ / Python 编程能力,良好的软件设计和开发能力;

  • (二选一)有并行计算编程基础,有 CUDA / C / C++ / Python 编程经验;

  • (二选一)拥有深度学习,机器学习领域的扎实理论基础,熟悉常见的深度学习网络或机器学习算法;

  • 良好的沟通能力、解决问题能力、时间管理能力和任务优先级管理能力;

  • 良好的英文技术文档读写能力和日常听说沟通能力。

工作地点:北京 / 上海 / 深圳 / 台北

上下滑动查看更多职位详情

团队介绍

NVIDIA 计算专家团队(DevTech)专注于各种深度学习算法、科学计算、数据分析和云端应用;在 NVIDIA 平台上进行性能分析以及优化,以充分发挥 NVIDIA GPU / CPU / DPU,集群和数据中心强大的算力,使其达到,或者接近“光速”(SOL)水平的高级技术团队。

该团队与世界上技术领先的企业、高校、研究院所合作,共同推动和加速各项 AI 应用的落地。通过与用户深度紧密的合作,在大语言模型、生成式 AI、推荐系统、自动驾驶、自然语言处理、视频和图像理解、语音识别与合成,游戏等领域取得了累累硕果。该团队成为帮助客户发挥硬件平台和软件栈综合算力的中坚力量,能够为产品研发团队提供性能优化、设计原型和行业应用案例。

团队目标:在 NVIDIA 系统上,将各类应用优化到性能极致!

以打造大语言模型(LLM)应用为例,既可以直接使用 NVAIE / NVIDIA Nemo Service,也可以使用应用框架(Nemo FW、Triton+TensorRT、FT等)来训练和部署模型,也可以基于 cuDNN / TensorRT 等软件库自己开发自己的框架,还可以基于 CUDA 来完全定制化自己的 pipeline,或者也可以混合采用这些方法。

如何选择一种合适的方法,其关键在于取得应用场景、性能要求、平台灵活性、时间成本、技术成本之间的平衡。NVIDIA 计算专家团队就是帮助客户和 NVIDIA 解决这个问题的。

上下滑动查看更多详情

团队发展

团队成员主要来自北京、上海、深圳、台北、首尔等地。

科学计算时代,当整个市场都还只关注于不断扩大通用硬件的规模时,NVIDIA 推出了加速计算 GPGPU 和 CUDA 编程模型。GPU 和 CUDA 这一全新的加速计算范式,为业界带来了源源不断的加速,但是也对应用的开发和优化提出了挑战。

在不断改进基础库性能的同时,NVIDIA 组建了一支特别团队,关注更为具体的应用。团队成员们不仅有深厚的计算机功底(从计算机体系结构、CUDA 编程,到编译原理、网络互连),还拥有各个领域的专业知识。这支团队不但可以从 GPU 编程方面对程序进行优化,更能从算法、模型方面提出改进建议,这使得 NVIDIA GPU 从科学计算领域脱颖而出。

随着深度学习的高速发展,该团队也在续写着相同的故事。对于 AI 中的神经网络,从代码和算法两个方面对其进行优化。代码方面涉及 CUDA、GPU 库,多机多卡网络互连等各个领域;而算法包括了模型压缩、量化、剪枝、混合精度训练、梯度压缩等,其最终目标都是在模型精度没有损失,或者损失不大的情况下,提高训练和预测的速度。

对于一个基于 AI 的实际工业项目,除了神经网络以外,系统内还包括了很多其他模块,神经网络在其中耗时只占 1/3 - 1/2。以互联网核心的推荐系统为例,其包括了召回、过滤、粗排、精排、离线训练、在线训练、ETL、特征工程等模块和流程。该团队致力于提供全流程的参考解决方案,让尽可能多的模块运行在 GPU 上,进而为应用带来显著加速。

上下滑动查看更多详情

点击“阅读原文”,或扫描下方海报二维码观看 NVIDIA 创始人兼 CEO 黄仁勋在 COMPUTEX 2023 的主题演讲直播回放,主题演讲中文字幕版已上线,了解 AI、图形及其他领域的最新进展!


原文标题:NVIDIA 招聘 | NVIDIA 最新热招岗位!一起迎接未来加速计算!

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3327

    浏览量

    87768

原文标题:NVIDIA 招聘 | NVIDIA 最新热招岗位!一起迎接未来加速计算!

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA数字人技术加速部署生成式AI驱动的游戏角色

    NVIDIA 在 GDC 2024 大会上宣布,Inworld AI 等领先的 AI 应用程序开发者,正在使用 NVIDIA 数字人技术加速部署生成式 AI 驱动的游戏角色。
    的头像 发表于 04-09 10:08 214次阅读
    <b class='flag-5'>NVIDIA</b>数字人技术<b class='flag-5'>加速</b>部署生成式AI驱动的游戏角色

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 209次阅读

    NVIDIA 初创加速计划 Omniverse 加速

    的重要力量。基于 NVIDIA 全栈式 AI 计算平台和 Omniverse TM 平台上的生成式 AI 创作实践,让企业、开发者能够了解可落地的生成式 AI 内容创作技术及其技术趋势与当前边界。 NVIDIA 初创
    的头像 发表于 12-04 20:35 400次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营

    NVIDIA 为全球领先的 AI 计算平台 Hopper 再添新动力

    Tensor Core GPU 和领先的显存配置,可处理生成式 AI 与高性能计算工作负载的海量数据。   NVIDIA H200 是首款采用 HBM3e 的 GPU,其运行更快、更大的显存容量将进一步加速生成式 AI 与大语
    发表于 11-14 14:30 112次阅读
    <b class='flag-5'>NVIDIA</b> 为全球领先的 AI <b class='flag-5'>计算</b>平台 Hopper 再添新动力

    177倍加速NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在
    的头像 发表于 11-09 16:46 554次阅读
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新开源 | GPU<b class='flag-5'>加速</b>各种SDF建图!

    NVIDIA CEO 黄仁勋:洞察未来机遇,精准管理势在必行

    近日,NVIDIA 创始人兼首席执行官黄仁勋做客知名播客栏目——“Acquired Podcast”,在节目中与主持人 Ben Gilbert 和 David Rosenthal 一起回顾
    的头像 发表于 11-01 20:25 252次阅读

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    生成式 AI 和大语言模型(LLM)不断推动突破性创新,训练和推理对算力的需求也随之急剧上升。 这些现代生成式 AI 应用需要全栈加速计算,首先要有能够快速、准确处理大量工作负载的先进基础设施
    的头像 发表于 09-25 20:40 287次阅读
    Oracle 云基础设施提供新的 <b class='flag-5'>NVIDIA</b> GPU <b class='flag-5'>加速</b><b class='flag-5'>计算</b>实例

    2023 NVIDIA 初创企业展示深圳站圆满收官!

    机器与边缘计算等方向,围绕 NVIDIA 技术专家赋能、项目路演、需求面对面、福利市场、投融资对接等环节展开。 NVIDIA 初创加速计划经理朱敏现场分享 在活动现场,
    的头像 发表于 09-19 20:20 549次阅读
    2023 <b class='flag-5'>NVIDIA</b> 初创企业展示深圳站圆满收官!

    DolphinDB加入NVIDIA初创加速计划

    近日,DolphinDB 正式加入“NVIDIA 初创加速计划(NVIDIA Inception)”,该项目是 NVIDIA 提供的一个加速
    的头像 发表于 08-27 01:08 655次阅读

    NVIDIA 招聘 | 欢迎加入自动驾驶团队,驶向智能出行的未来

    NVIDIA 自动驾驶团队现正在热招中! 现在就加入 NVIDIA 自动驾驶团队,让我们一同驶向未来!这里不仅有挑战,更有机遇。您将与专业的同事合作,汇集技术和智慧,共同推动自动驾驶技术的进步
    的头像 发表于 08-18 17:45 913次阅读

    NVIDIA初创加速计划中国会员企业突破 2,000 家,2023 NVIDIA 初创企业展示蓄势待发

    NVIDIA 初创加速计划(NVIDIA Inception)是 NVIDIA 为初创企业所提供的一个加速平台,目前全球已有超过 15,00
    的头像 发表于 07-26 18:20 554次阅读
    <b class='flag-5'>NVIDIA</b>初创<b class='flag-5'>加速</b>计划中国会员企业突破 2,000 家,2023 <b class='flag-5'>NVIDIA</b> 初创企业展示蓄势待发

    NVIDIA 初创加速计划中国会员企业突破 2,000 家,2023 NVIDIA 初创企业展示蓄势待发

    NVIDIA 初创加速计划 (NVIDIA Inception)  是 NVIDIA 为初创企业所提供的一个加速平台,目前全球已有超过 15
    的头像 发表于 07-21 16:50 358次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划中国会员企业突破 2,000 家,2023 <b class='flag-5'>NVIDIA</b> 初创企业展示蓄势待发

    NVIDIA 邀您参加 —— AI 软硬件协同开发技术交流与人才发展分享会

    大模型时代,NVIDIA 渴望携志同者一起前进,与道合者一起奔跑,共同创造更多可能!NVIDIA GPU 计算专家团队(DevTech)与
    的头像 发表于 06-26 19:35 261次阅读
    <b class='flag-5'>NVIDIA</b> 邀您参加 —— AI 软硬件协同开发技术交流与人才发展分享会

    NVIDIA “魔盒”有哪些“内涵”

    飞凌AI边缘计算终端FCU3001采用 NVIDIA Jetson Xavier NX定制开发,先来张产品开箱后的“全家福”: ​ AI 边缘计算终端FCU3001的体积非常小巧
    发表于 05-26 14:12

    NVIDIA、于利希超算中心和 ParTec 将一同建立量子计算实验室

    这项重大合作将推动在 NVIDIA 加速的系统上运行高性能计算和量子计算工作负载的研究 德国汉堡 – 国际超算大会(ISC) – 2023 年 5 月 21 日 –
    的头像 发表于 05-23 07:10 280次阅读