联系我们
关注我们
顶部

应用场景
      
       GPU服务器已被广泛应用于机器学习领域。
       工业与学术界的数据科学家已将 GPU 用于机器学习,以便在各种应用上实现开创性的改进,这些应用包括图像分类、视频分析、语音识别以及自然语言处理等等。海量训练数据的出现、 GPU 计算所提供的强大而高效的并行计算,促进了机器学习的广泛应用。与单纯使用 CPU 的做法相比,GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量,因此 GPU 已经成为越来越多的数据科学家处理大数据的处理器。

产品定义
     
       安擎深度学习平台是一套基于GPU服务器集群的用于深度学习的资源管理平台软件,它将GPU资源、CPU资源、内存、硬盘等资源虚拟化后进行统一管理,按需分配给不同用户和群组使用。

       安擎深度学习平台支持主流机器学习框架(如TensorFlow、Caffe、Torch、Keras等)。提供深度学习的模型(算法)库(LeNet、MLSTM、Alexnet、Googlenet、ResNet、GAN、Faster R-CNN等)、标准数据集(ImageNet、COCO、PASCAL VOC、CIFAR、Open Image、Youtube-8M)、Demo演示程序(人脸识别门禁程序、手写数字识别、快速多目标识别等)。

       安擎深度学习平台能够助力科研单位、高等院校、人工智能企业更快地进入深度学习研发领域,更好地聚焦算法本身,更快地推出能够解决实际问题和需求的产品。
 
功能架构
 
       安擎机器学习平台为用户建设大规模的机器学习软件提供了全方位的解决方案。    
       平台从基本业务需求出发,将CPU资源、内存、GPU资源、存储资源虚拟化后进行统一管理,结合不同深度学习框架(如:Tensorflow、Caffe),实现快速创建机器学习应用,聚焦于算法本身,更好地管理IT设施、优化运维,实现IT服务等级承诺。
      优势1:快速部署
       •在10分钟内,离线状态完成单个节点的安装,并且提供节点的动态增加和删除功能,帮助运维管理员快速建立GPU集群。   
      优势2:五步创建应用
       •基于容器技术,秒级创建GPU应用,如Caffe、Tensorflow;
       •系统级负载均衡,冗余支持;
       •运行状态实时监控,节点故障快速迁移。    
      优势3:镜像定制/分发平台
       •很多用户会使用自己需要的平台,比如基于某个操作系统,不同机器学习框架,开放不同服务端口。我们针对不同的软件会提供不同的应用模板,方便用户选择操作系统后,再选择需要的应用(比如SSH、Tensorflow、Caffe...),那之后即可生成需要的应用,并发布到平台内,可以供平台调用使用。     
      优势4:自我故障恢复
       •一旦应用发生故障,集群会通知客户异常状态,并试图重新恢复应用为可用状态。特别是在关键的多副本的应用中,单个节点发生故障时,集群会将应用迁移到其它节点上,不会影响到我们的服务。   
      优势5:节点规模动态扩展
       •节省初期投资成本,根据开发需求不断扩展节点,节点增加集群不停止,并且实现系统负载均衡。
 
 解决方案
 
 

 方案优势特点

    •已在多个项目中得到实际验证,最大的节点规模可以至上千个节点。
    •在底层系统的驱动和软件库层面进行了足够的性能优化,可以充分发挥GPU集群的性能。
    •核心技术是基于最近几年兴起的容器技术,在应用部署上可以达到秒级创建
    •针对不同深度学习框架,通过镜像定制和分发平台,帮助用户实现定制化镜像和应用
    •提供深度学习的算法库(LeNet、MLSTM、Alexnet、Googlenet、ResNet、GAN、Faster R-CNN...)、标准数据集(ImageNet、COCO、PASCAL VOC、CIFAR、Open Image、Youtube-8M...)以及Demo演示程序(人脸识别门禁、手写数字识别、快速多目标识)
 
客户价值
快速部署

一键部署,快速搭建深度学习训练集群
节省投资
1.提高IT设备利用率,按需分配
2.节省研发时间,缩减研发成本
提高效率
支持分布式,显著提高训练速度
教学实训
降低技术门槛,聚焦深度学习算法,加快科研速度
 
 成功案例  
       某人工智能科研机构:
   •需求概述
       部署了20台GPU集群环境,每台GPU服务器承载4块GPU卡
       需要一套集群管理系统,解决从集群部署到资源分配和监控的整个生命周期内的问题
       机器学习的架构和算法众多,后台数据较多
       优势是算法实现,但缺少运行平台搭建经验

   •解决方案
       部署了安擎机器学习平台后,图形化地部署、运行、监控容器(Container),并且集群能够提供高可用、可伸缩、负载均衡等特性
       可灵活切换不同的机器学习架构(Caffe、Tensorflow、Keras等)
       Tensorflow分布式运行,效率很高