欢迎光临北京软件和信息服务业协会官方网站
大数据技术 我们为何不先发制人?
发布日期:2017-03-21    来源:北京软协    分享到:

  在工业和信息化部的指导支持下,中国大数据产业生态联盟联合《软件和集成电路》杂志社编著,由电子工业出版社出版了《数据新势力—发掘大数据的新生力量》。

  在中国大数据产业生态联盟中既有传统IT企业成功转型为大数据企业的代表,也有创业发展势头强劲的新生代大数据企业。虽然发展经历、规模大小各不相同,但在这些企业身上,都能看到一个共同点:那就是对大数据产业的高昂热情以及对新技术、新商业模式的深入探索。正因如此,他们才能在众多的企业中脱颖而出,成为中国大数据产业发展的新势力。这些企业的转型、创业以及发展经验具有极强的借鉴意义,在《数据新势力—发掘大数据的新生力量》一书中均有深刻的发掘和报道。北京大学教授、工业和信息化部原副部长杨学山特为本书作序。

 

  30家大数据企业,30种商业模式。通过对这三十家企业的采访和深入了解,‘中国大数据产业生态联盟’的记者为每个企业提炼了关键词。北京软协汇集副会长单位神州泰岳的采访记录:

 

神州泰岳:文本技术承载商业模式转型

 

  “2013年至今,大数据处于修跑道的阶段。”神州泰岳副总裁杨凯程认为,大数据产业在这一阶段的发展中还存在一些问题,如文本等非结构化分析挖掘领域还缺少有效的工具。而造成这一现状的症结在于——“技术的投入和创新力度不够,但是又缺乏现成的近道可走”。

  当下,业界对于大数据概念性的讨论已越来越少,进入相对的静默期,部分企业开始沉下来思索大数据能做什么,亦逐渐意识到技术优势的重要性。“现在是大数据的场景创新的重要阶段。有幸的是,鼎富科技(神州泰岳旗下成员企业)起初就意识到了场景创新的重要性。在过去的2~3年积累了较多的场景和产品创新经验,已具备了很好的技术和产品优势,这是很多初创公司希望达到的。”杨凯程道出了鼎富科技能抢占众人觊觎的大数据高地的关键所在。

“2+2”战略:推进创新和转型

  人工智能和大数据是神州泰岳“2+2”全新业务格局中的重要部分。杨凯程介绍道:“6月收购鼎富科技后,公司正式推进‘2+2’发展战略。第一个‘2’是指ICT运营管理和手机游戏,今年这两个业务整体较好,构成了当下的主要利润;第二个‘2’就是指人工智能与大数据、物联网与通信技术应用,是泰岳未来着力打造的战略业务,希望通过努力,未来三年形成四轮驱动。”

  未来,神州泰岳将把人工智能和大数据作为重要的转型方向之一。“神州泰岳并购鼎富科技的原因就在于公司对于大数据和人工智能领域未来发展前景的高度认可,而鼎富科技在非结构化文本大数据领域拥有自身的核心技术。所以我们希望将自身在大数据产业链的现有资源和成果与鼎富科技的技术优势相整合,扩大神州泰岳在整个产业链上的实力,在大数据和人工智能方向上有所作为。”杨凯程道出了并购的缘由。

为此,神州泰岳将以鼎富科技的技术为核心,对人工智能、大数据相关的业务进行整合。“在传统的ICT业务中如果我们导入人工智能,那么人工智能在运维管理等领域就会产生一些创新的机会和场景,比如运维知识库的提升、运维工单的自动分拣和帮助台的智能机器人等。”杨凯程分析了神州泰岳在人工智能和大数据方向与现有业务整合后的一个可能的发展途径。

  在“2+2”战略之下,神州泰岳的整体实力会得以再加砝码:“神州泰岳已积累了大量的行业客户资源,尤其是在运营商领域,使得我们相对容易地在原有的运营商的运维管理业务和其他延伸业务中叠加人工智能和大数据技术,从而使得原有业务得以提升和创新。加之现在运营商对人工智能、大数据已有了较充分的认识和逐渐明确的需求,也使得神州泰岳有可能成为该领域主要的供应商之一。不仅如此, 结合鼎富科技在文本技术上的领先性以及原有的金融行业等领域的先期优势,神州泰岳的整体实力将在整合中得以进一步加强。”杨凯程说道。

 

语义理解技术才是人工智能的关键

  鼎富科技的核心技术是非结构化文本的分析挖掘,即语义理解技术,并围绕这个方向展开非结构化大数据的业务。在该领域,自然语言的语义理解是人工智能认知技术的核心。IBM、微软、BAT都在布局人工智能,而人工智能最离不开、也最具挑战性的环节就是自然语言的语义理解技术,因此这些公司都希望在语义理解技术上实现突破。

  目前,深度学习的出现使得自然语言处理领域在传统的规则方法和统计方法之外,有了更为领先的技术手段。应该说深度学习的出现有效地促进了语音识别、图像识别等领域的快速发展,使其可用性达到了可以广泛应用的条件,但是在自然语言语义理解领域通过深度学习来达到与语音识别等类似的效果,目前看还是比较困难的,尤其是中文的语义理解。

  众所周知,深度学习和统计方法都是需要语料学习的,高质量的数量庞大的语料就变得极为重要,这也是深度学习在自然语言语义理解方面面临的一个挑战。而在行业领域,积累和准备可供学习的语料的工作还是比较繁重的,而且需要时间进行积累,但是好的一个方面是行业领域是具有边界的,所以在某些行业领域中如果样本数据丰富或者易于积累的情况下,再或者在特定的功能范围内,深度学习还是会有较好效果的。

  “目前,我们在自然语言的语义理解方面,处于一个相对领先的地位。鼎富科技自2011年成立以来就一直在研发基于概念计算、能够解决中文歧义性的和支持多语种的‘智慧语义认知技术’。该技术不同于深度学习和统计方法,不需要学习大量的语料,这是不同公司在底层的自然语言语义理解技术的差异。”杨凯程解释道。

  “我们对非结构化文本大数据行业的另一贡献是研发了DINFO-OEC非结构化大数据的分析挖掘平台,它是完全面向业务建模的,让研发人员将注意力放在业务理解和业务表达上面,而将鼎富科技的智慧语义认知技术进行了封装,因此极大地缩短了行业应用场景创新的研发周期和提高了应用质量。”在杨凯程看来,DINFO-OEC平台还存在不断完善的要求,但它的出现推动了行业在文本处理技术的应用,促使大家开发应用时专注于业务的大数据创新,而不是成为语义技术和文本技术的困兽。

  “近几年,DINFO-OEC平台推出后在工行、中行、顺丰、军工、政府中都得到了很好的应用。2014年,中国工商银行呼叫中心的客服工单分析挖掘系统、顺丰的呼叫中心工单智能分检系统都上线了。其中智能分类的准确率达到95%以上,并支持多语种,这在国际上也是遥遥领先。”杨凯程介绍。

  “大数据时代,不能纸上谈兵,而是要扎扎实实地结合行业进行场景的创新。” 杨凯程认为,埋头苦干、真有创新远比空有噱头来得重要。

 

三大战略助推大数据优势

依托在自然语言的语义理解上的技术领先优势,神州泰岳大数据战略主要分为如下三个层面:

 

战略一:语义云

杨凯程认为,推出泰岳语义云是因为自然语言语义理解技术的投入是十分巨大的,需要的技术研发时间也是长期的,而大数据和人工智能的发展离不开自然语言语义技术的应用,而各行各业的大数据和人工智能创新除了技术创新的同时,也离不开业务场景的创新。只有整合行业背景资源和语义技术资源才可能做好这件事情,所以神州泰岳希望通过泰岳语义云的推出,将自然语言语义技术开发给市场, 开发给合作伙伴和行业客户,大家一起共同推动行业大数据和人工智能应用的发展,当然也希望有更多志同道合的同仁一起,围绕泰岳语义云建设一个领先的自然语言语义处理的生态圈。

众所周知,大数据尤其是非结构化大数据的分析挖掘,需要的投入和技术准入门槛很高,神州泰岳不可能覆盖各行业的业务或创新。但现在社会化数据80%都是非结构化数据,非结构的文本数据在各行各业有大量需求。“就此,我们希望通过语义云的方式,将非结构化数据的技术和人力向社会开放,也希望客户和合作伙伴能通过使用这种能力,再结合自身对行业的创新理解和行业的背景、经验,在行业中不断创新,从而共同推动非结构化大数据产业的发展。”杨凯程如是说。

杨凯程表示,目前神州泰岳也已经成立了神州泰岳人工智能研究院,研究院汇聚了鼎富科技的核心技术力量,以持续推动自身在自然语言的语义理解技术上的领先性。

 

战略二:人工智能

  人工智能的核心是认知,而认知的核心是语义理解技术。神州泰岳依托领先的语义技术,重点推出了两款人工智能产品——统一业务知识库和小富机器人。杨凯程指出:“现在的机器人还不能完全实现自然的交流,而未来机器人应该跟人沟通、交流时更像人,所以我们希望小富机器人能够推动机器人在认知领域的进一步发展。”

  知识库也是人工智能的重要环节。现在知识库的加工基本是人工的参与为主,由人工进行知识的加工、入库,这会给知识库的应用领域带来大量的困扰和挑战。“我们希望能够生产出新一代的知识库系统,可以支持加工智能化,为行业带来巨大的改变。”杨凯程如是说。

 

战略三:云服务

  云服务战略是神州泰岳希望服务好行业客户的战略,同时也是希望未来更多地采用SaaS服务的方式来提供云服务,将服务对象向中小企业甚至个人倾斜的战略。目前来看,行业的大数据和人工智能机遇已经来临,关键的问题是如何选择机遇和如何落实落地的问题,所以,“工欲善其事,必先利其器”,对于神州泰岳来说,优势在于“器”已经在手中了。杨凯程表示:“我们根据不同行业对文本技术的依赖度选择行业。对文本技术依赖度很强,或文本是其重要业务的行业,如媒体、证券等行业将重点进行开拓。”

 

要拥有国际影响力,核心竞争力是关键。

  杨凯程认为:“从某种角度上说,掌握中文语义理解技术对于中国人来说是一次重要的机遇和机会,不论是鼎富科技来突破还是其他国内的友商来突破都是值得庆贺的事情。长期以来与国外的IT巨头相比,中国非常缺乏领先的IT技术领域,而‘中华民族是以中国为家,华夏为号;炎黄为旗,阴阳为道;中庸为德,龙凤为图; 以汉字为记的伟大民族’!所以中文是我们祖先留下的最为宝贵的财富,而中文自身的歧义性等难于攻克的难题,也使得国外IT巨头难于短时间突破,如果我们能够领先,就能够将中文的处理能力留在中国人手中。泰岳人希望看到这样的情况,不希望丧失这个可以领先的机遇。”

  “当我们拥有很强的中文处理能力同时又具有完全自主知识产权的时候,就为神州泰岳服务于军队、安全和公安等部门创造了机遇。例如现在我们在军工行业做了一个类似于情报系统的知识库,目前已经同时支持12个主要国家的语言,且其知识处理能力具有较好的领先性。再比如对于公安刑侦文本分析挖掘中对于作案手段、时间、地点、物品、当事人和嫌疑人等信息的抽取水平的准确率和召回率都达到了90%以上,而这一技术能力通过优化是完全可以达到98%以上的,这将对提升刑事案件侦破的效率、线索的发现等提供极大的帮助。”杨凯程表示。

  杨凯程认为,在未来的大数据创新中,国内大数据企业还是具有很大优势的。“因为大数据的属性是本地化,和生活、工作具有较强的相关性。而国外企业在国内数据方面的获取应该还是有一定挑战的,这也给国内企业提供了竞争的便利。”

  优势和困境总是如影随形。大数据面临的难题就是需要大量而持续的投入。“鼎富科技在开始的几年中,将70%~80%的资金都投入了研发,虽然保持了每年接近300%的收入增长,但是还是不一定能够完全满足研发投入的要求。而大数据和人工智能的发展极其迅速,IT和互联网巨头们纷纷加入,若没有及时把握,就可能失丧失机会,我们不希望丧失这个机会,所以才与神州泰岳进行了整合。”杨凯程道出了发展大数据的困局和坚守之难。

  文本技术需要承载公司未来商业模式的转型。但杨凯程认为,在这个过程中, 需要有所为、有所不为。相信有这份有所为、有所不为的魄力,神州泰岳将在人工智能和大数据领域开拓出一片新天地。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.