剑格上的是四个平台级技术,即安全、质量保证、信息化和平台化技术。这些技术对整个技术平台和百度的业务起到了支撑和保护作用。
当“大宝剑”的全貌以动画幻灯的形式展现在大屏幕时,在场的工程师们掌声不断。
其后,王劲进行了一系列技术层面的细节描述:
在人工智能方面建成了世界最大规模的深度学习的集群,这个NDD网络集群有万亿的参数,支持千亿的样本和千亿特征训练;
大数据方面,去年12月百度成立了大数据部,在将近一年的时间里做了很多工作。到今天,百度能够存储和管理的数据量已经达到1000PB,今天处理量也达到100PB,单次异构查询就达到100TB,这些都是非常高的指标。我们还建成全球第一个通用的推荐引擎,我们也把我们的大数据预测平台开放给中国的合作伙伴们。
搜索引擎是百度的看家本领,在中国市场占有绝对领先的份额。我们的变现能力在业界首屈一指,在CPM上我们远远领先于国内的竞争对手。人工智能对搜索技术和变现能力的提升起到决定作用。不仅如此,依托公司移动互联网战略,我们在移动变现的能力上遥遥领先国内外竞争对手,这个成绩很好地支撑了公司股价。百度是世界上最早大规模使用深度学习技术来提升变现能力的,最主要的是应用于Ctr预估系统。在这些技术上面,我们有很多值得骄傲的创新。
语音和图像,这两个代表未来的技术我们到底做的怎么样?今天,百度已经拥有了中国领先的语言识别技术:在静态环境中,普通话识别率从92%提高到为95%。大家知道,人类的正常交流,是在有一定噪音的情况下,达到98%的准确率。今天,机器语音识别的准确率还没有达到人类正常交流的水平,但是我们正在努力,通过DNN等技术一步一步的逼近这个临界点。
我们建立了统一的资源集群管理系统,系统的CPU利用率达55%,在整个业界处于非常领先的水平。很多国内外的竞争对手,其CPU利用率大部分在30%左右,而我们55%的CPU利用率是业界的标杆。我们还拥有全球最大的Hadoop集群,单集群规模达到1.3万台服务器。在中文领域,百度的NLP技术一直独步全球。在机器翻译方面,我们在28个方向超越了主要的竞争对手Google。
王劲说:
“数据中心技术是互联网公司的核心技术。今年6月底,百度在山西阳泉建成了一座美伦美奂的数据中心,这是中国最先进的数据中心,也是迄今为止规模最大的。数据中心拥有非常复杂的技术。我们把很多创新型的技术用在这里。 评估数据中心的先进性有很多指标,其中最、重要最客观指标之一就是PUE,也就是用电的效率。阳泉数据中心的PUE是中国最好的。数据中心里的GPU服务器,用来做深度学习训练,和普通CPU服务器相比,提升效率34倍。”
最后百度首席科学家吴恩达也发表了讲话,其中他分享到百度在深度学习领域的最新进展——机器读图。目前百度深度学习技术已成功地实现让机器将图像内容生成自然语言的描述性句子或段落,这可以说是人工智能领域的一次技术飞跃。吴恩达还透露百度将启动“AI(人工智能)人才计划”,每年会挑选多位AI研究员,赴美在百度硅谷实验室工作并学习6个月,期间可以深入了解人工智能和深度学习,参与开发前沿的人工智能技术,和美国团队交流中国团队的工作成果。
吴恩达还透露,加盟百度正是看中了百度系统的基础架构技术体系、及百度正在做和将要做的事,这让他对技术的未来感到更有信心。
尾注:其实百度在这个学堂里还透露了某些正在研发的技术产品,但囿于规则,虎嗅也不能对外讲了……能说的是:真的还蛮DIAO的……#这么吊人胃口的虎嗅君真是够了#