GPU视频结构化
发布时间:2017-11-29  版权图片  请勿转载

行业背景


深度学习技术让计算机第一次真正实现对各类目标深度解析。基于神经网络深度学习的视频结构化技术,进行人、车、物目标检测,并准确地在海量视频进行智能化分析,提取出关键信息,进行文本的语义描述,实现视频数据向信息、情报的转化。


核心需求


准确性与处理效率是视频结构化的两个重要指标。而影响准确性与处理效率的主要因素有:

1)处理的视频规模大,部分视频大小达到几十甚至上百TB级;

2)视频源的画质条件,如分辨率、损坏程度等。

3)原始视频中需要提取的关键信息繁多:

关键信息主要分为三类:第一类是运动目标的识别,也就是画面中运动对象的识别;第二类是运动目标特征的识别,也就是画面中运动的人、车、物有什么特征;第三类是运动目标的轨迹分析,也就是画面中人或车是左转了还是右转了或是徘徊了等等。

        

传统的服务器在处理上述结构化信息时面临极大的性能瓶颈,处理效率低,处理时间往往较长,因此,视频结构化应用需要更高计算性能的设备来支撑,以期实现处理效能的突破

     解决方案


GPU 特有的加速性能,可以将计算时间缩短几十到上百倍,使得原来需要 30 天的深度学 习训练的计算量,只需要 10 个小时即可完成,使视频结构化产品实现性能上的突破。


解决方案中包括: 


视频结构化是一种基于人工智能深度学习的视频内容信息提取技术,而Tesla M40 GPU加速器是全球最快的深度学习加速训练器,专为显著缩短训练时间而定制。


解决方案中配置了Tesla M40 GPU加速器,Tesla M40 GPU的加速特性和优势包括:

1)NVIDIA Maxwell™ 架构
      2) 单精度浮点运算能力超级高达 7 万亿次
      3)3072 个 NVIDIA CUDA® 核心
      4)12 GB 的 GDDR5 显存
      5)288 GB/秒的显存带宽
      6)可在数据中心内提供超级长的正常运行时间


应用软件

Caffe 是一个清晰,可读性高,快速的深度学习框架,以其优秀的卷积模型,已经成为计算机视觉界最流行的工具包之一。Caffe 的快速使其完美应用于实验研究和商业部署。Caffe 可在英伟达单个 K40 GPU 上每天处理 6000 万张图像。这大概是 1 毫秒预测一张图片,4 毫秒学习一张图片的速度,而且最新的版本处理速度会更快。


HBase是一种构建在HDFS之上的分布式、面向列的存储系统,它具有高可靠、高性能、面向列和可伸缩的特性。HBase适合于存储大表数据(表的规模可以达到数百亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。一个分布式的、按列存储的、多维表结构的实时分布式数据库,用于存储粗粒度的结构化数据,适合构建高并发低延时的在线数据服务系统。


Kafka是一种分布式的,基于发布/订阅的消息系统,结构化平台通过Kafka来实现与大数据存储的交互。

 

拓扑图

 


总结


 GPU系列解决方案大大加速了视频结构化分析的计算速度和计算精准度,能够帮助研发人员更快地训练出更大的模型,而不会受到深度学习模型实现方式的影响。研发人员在算法、统计方面的精益求精,都需要一个生态环境的支持。GPU已经构建了CUDA、cuDNN及DIGITS等工具,支持各种主流开源框架,提供友好的界面和可视化的方式。





上一篇:软件定义存储
下一篇:大数据平台