联系我们
关注我们
顶部
安擎机器学习平台“走”进南京科研所
发表日期:2017-12-13

       安擎机器学习平台凭借自身优势和行业领先的技术实力,与南京某科研机构鼎力合作,应其需求为其专业部署机器学习平台,并且组织数十人的专业团队为其提供技术支持和售后服务。

应用场景

        在这个数据爆炸的年代,我们获取数据的难度大大降低,累积了大量的数据基础,面对如此庞大的数据量,仅仅靠我们的人脑是无法处理的。

        南京XX科研机构一直致力于人工智能和机器学习技术的研发的应用,但因为缺少构建平台的经验,所以需要外界技术力量帮助其搭建一套软硬件一体化的解决方案。安擎以十几年技术实力以及在服务器领域的优异成绩,根据客户的需求为客户部署了安擎机器学习平台后,集群能够提供高可用、可伸缩、负载均衡等特性可灵活切换不同的机器学习架构(Caffe、Tensorflow、Keras等),并且有一个数十人的研发团队提供技术支持和售后服务,使得用户可以聚焦其算法和模型本身,更快的推出科研成果和技术转化。

主要功能

       安擎机器学习平台为客户建设大规模的机器学习软件提供了全方位的解决方案。平台从基本业务需求出发,将CPU资源、内存、GPU资源、存储资源虚拟化后进行统一管理,结合不同深度学习框架(Caffe、Tensorflow、Keras等),实现快速创建机器学习应用,聚焦于算法本身,更好地管理IT设施、优化运维,实现IT服务等级承诺。


优势1:快速部署
在10分钟内离线状态完成单个节点的安装,并且提供节点的动态增加和删除功能,帮助运维管理员快速建立GPU集群。

优势2:五步创建应用
基于容器技术,秒级创建GPU应用

优势3:镜像定制/分发平台
很多用户会使用自己需要的平台,比如基于某个操作系统,不同机器学习框架,开放不同服务端口,我们针对不同的软件有提供不同的应用模板,方便用户选择操作系统后,再选择需要的应用(比如SSH、Tensorflow、Caffe...)后即可生成需要的应用,并发布到平台内,可以供平台调用使用。

优势4:自我故障恢复
一旦应用发生故障,集群会通知客户异常状态,并试图重新恢复应用为可用状态。特别是在关键的多副本的应用中,单个节点发生故障时,集群会将应用迁移到其它节点上,不会影响到我们的服务。

优势5:节点规模动态扩展
节省初期投资成本,根据开发需求不断扩展节点,节点增加集群不停止,并且实现系统负载均衡。

 

解决方案



成功案例

     安擎机器学习智能管理平台已在多个项目中得到实际验证,最大的节点规模可以至上千个节点。其功能能够完全满足各种主流的机器学习应用的需要,可以帮助人工智能企业和研究所快速搭建平台,聚焦于机器学习算法研究和应用开发,在底层平台的驱动和软件库层面已经进行了足够的软件性能优化。
     其核心的技术采用最近几年兴起的容器技术,该技术对于性能消耗是极小的,在应用的部署上可以达到秒级创建的性能。
     针对于机器学习的不同架构需要,通过镜像定制和分发平台,帮助客户快速制作属于自己应用需要的镜像并分发到智能管理平台的本地镜像库,供应用和服务来调用。