10月12日,由追一科技主办的“首届中文NL2SQL挑战赛”正式收尾。表面上看,这仅仅是一场学术性的技术比武。事实上,它承载着一家NLP企业对于推动行业发展的殷切愿望。

在最近这一波人工智能浪潮中,视觉和语音行业的发展和应用表现出了强劲的增速,相比之下,NLP行业的表现则较为暗淡。从市场上的新兴技术导向企业来看,视觉和语音领域都跑出了独角兽,如旷视科技已经申请IPO,而这种现象在NLP领域尚未出现。

不过,尽管NLP尚未引起市场巨浪,但实际上其潜在的力量却是不容小觑。“从理论上讲,与视觉等领域相比,NLP的市场会更大。因为人类的绝大多数信息还是以文字方式在存储,交流方式也是以语言为主。有语言的地方就有NLP作用的机会。”追一科技CTO刘云峰在与媒体分享时表示,NLP去年开始成熟,今年相对进入逐渐成熟的阶段。“NLP也会进入一个爆发期。从技术成熟度来看,今年肯定是NLP的一个大年,落地到产品应该还有一两年的延后,后面会有一个比较大的爆发。”他分析说道。

而众所周知,新技术的应用发展有两大核心要素:技术和产品,这也是NLP行业当前面临的挑战。在行业较初期的阶段,“如何活着”成为了市场抛给企业的命题。而在解决了基本的生存问题后,面临“持续发展”时,则需要结合对企业自身的战略规划和行业生态的推动。这即是追一科技目前正在探索的事情。一个技术创新驱动的NLP企业,在面临将至的行业大爆发,如何厚积薄发?刘云峰分享了追一科技的理解与实践。

追一科技CTO刘云峰

首先,他分享了针对技术的探讨。“算力的突破,解决了语音和视觉的问题。但NLP不太依赖算力,人们对于这项技术的期望值也很高。”追一科技CTO刘云峰认为,NLP需要突破的核心较为特别。当然,技术不能是空中楼阁,必须要走出论文投入实际生产。除了基础技术的潜在可能性待挖掘,落地能力也成为决定性因素。“很多技术从论文到工业的转换周期比以前加快了很多,这是很好的事情。基础设施已经搭建好了,我们需要加速这个过程。”他表示,近两年有很多基础能力的突破,特别是语言模型上突破,但这些基础能力并不可以直接在工业应用中落地,还需要扩展到如NL2SQL这类技术的突破,然后再落地。

首先,是来自技术层面的尝试与突破。今年9月,其打破了CoQA多轮对话阅读理解纪录,位列榜单第一。除了在研发上发力,该公司也致力于搭建NLP细分方向应用研究的平台,如其发起的中文NL2SQL挑战赛。

据介绍,NL2SQL(自然语言转结构化查询语句)作为新兴的研究领域,在国外由SalesForce耶鲁大学等发布了WikiSQL和Spider数据集,但在国内市场,目前还处于起步阶段。 NL2SQL在银行、保险、证券、电商、汽车、地产等数据富矿领域,有很大的应用潜力,可以大大地降低数据库访问和使用门槛,更好地挖掘数据特别是结构化数据价值,让数据库不再“沉睡”。 “我们希望搭建一个平台,让企业、学术届都关注到这个方向。这叫众人拾柴火焰高。”

追一科技发布了业内首个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句。“这个数据集就像一个NLP领域的公开尺子。”刘云峰解释,就像李飞飞做的视觉领域数据集,对整个计算机视觉的作用一样,大家都愿意把自己最好的方法用这个尺子度量一下。“技术的研究下一步肯定是踩在之前已经度量过的,比较稳固的结论基础上进行,所以它为技术发展起到了很大作用。”他说。

技术在被一步步突破的同时,也要置于实际落地场景中检验。然而,这一过程也并非一帆风顺。刘云峰直言,对于做企业服务的AI企业来说,很大一个问题是技术提供方和使用方互不理解。“客户有一个钉子,但是不知道用什么锤子来砸。AI公司有一个锤子,但不知道在哪里找钉子。”他表示需要一个平台来加速从论文到工业应用的蜕变过程。

那么,具体到AI技术的“老大难”问题——落地,追一科技又是如何接招?刘云峰分享了几个方向。

一是全栈式的技术布局策略。“融合、开放”是现市场上的趋势,这不仅体现在企业关系之间的微妙变化,也表现在技术的应用逻辑中。“真正在工业落地时,视觉和NLP集合得越来越多,这个趋势叫做多模态的融合。”刘云峰介绍道,工业落地时,经常需要同时处理多种信号,而很多应用企业没有能力,也不会去融合两家不同技术公司的方案。“未来头部的AI公司一定是全栈的。”他补充强调。所以,实际上,追一科技以NLP为核心的同时,也在涉足语音识别等方面,如,其研究在对话的交互场景里,有上下文的情况时怎么把语音识别做得更准。

二是商业闭环能力,这也是NLP领域较难出独角兽的原因之一。技术牛不等于商业上的成功,刘云峰认为,一个创新企业的成功,应当是研发、产品和商务三方面都会比较强。“研发提高了企业的天花板和想象空间;产品和工程化团队负责把上限的内容转化为平台和产品;商务团队要解决可复制性问题,让一套系统不仅仅适用于一个客户,而是所有的行业。”他表示,要能够把公司的上限转化为下限,形成一股强有力的商业闭环能力。“最终一个公司在市场上的地位肯定是由上限和下限的位置共同来决定的,这两个都很高的话,这个企业在市场上的地位就会比较高。”他说道。

三是突破大规模商业化的困难。当产品顺利交付时,规模化成为了一个企业做大做强的重要路径。然而,做企业服务和消费者市场并不一样,消费者市场出现爆点时,可形成指数级增长,但企业服务就需要更加踏实地去布局和规划。刘云峰介绍说:“企业服务更多需要定制化,但是如果我们产品化做得比较好的话,即可实现“配置即定制”(配置就是PaaS化),能通过配置就可以实现定制。”当然,在PaaS化无法满足要求时,就需要通过合作伙伴的建设助力。“我们完成了80%的基础事情,剩下20%也许可以交给合作伙伴。”他说。

显然,NLP行业的前景是美好的,但过程是还需要探索的。而在此过程中,那些积极为推动行业发展奔走呼喊的企业,或许将成为行业爆发时的“黑马”或者“独角兽”,这是关于厚积薄发的故事。

 

题图来源:pixabay