AutoML被认为是降低机器学习工作门槛,让AI真正推动行业变革的重要一环。探智立方即将推出的产品,可以让各领域的专家们仅需专业知识和数据,就能完成机器学习复杂算法的开发。
在2017年谷歌刚刚推出AutoML工具的时候,「AutoML」还仅有机器学习模型自动化的意思。而现在,人们已经普遍认为AutoML需要贯穿机器学习的整个流程:从数据清洗开始、特征工程、到模型的生成,甚至包括模型评估,所有阶段都包括在了AutoML的范畴之内。
这也为机器学习自动化提出了更高的要求。「探智立方的DarwinML可以把开发者构建模型的时间从若干周减少到一天,甚至仅仅几个小时,」探智立方产品总监宋煜说道。「而现在,数据整理的工作也可以自动化了,甚至数据特征工程也可以嵌入到整个模型设计过程中去。对于开发者来说,这些事可以在不被感知到的情况下完成,人们无需关心它们是如何被处理的。」
DarwinML产品全景图
在2017年底成立的时候,探智立方的愿景还只是做好模型自动化生成这一件事。创始人们希望能够通过AutoML技术降低人类的重复性劳动,甚至在未来3-5年时间里实现超越人类的水平。
今年,这家公司面向各行业推出了数据处理、推断能力和AI可解释性等大量新工具。在最近的一次活动中,探智立方公布了自己的最新产品图谱,这家公司的产品,距离开箱即用的目标更近了一步:
随着新产品即将上线,探智立方已经构建起三大产品线:
全新的DarwinMLDataFustion数据融合工具,帮助缩短数据抽取的时间及降低宽表生成的复杂度;
作为核心的自动建模平台DarwinMLStudio,加入了大量扩展工具;
以及推理平台DarwinMLInferenceplatform,面向高并发低延时需求的推理任务。
针对金融保险等行业的商业落地,在即将推出的新版DarwinML中,还会包含一些专用插件。
「如何在数据缺乏整理,或内容过多、缺少标注的情况下构建高效的AI模型,验证商业模式是否可行,是机器学习落地的最大挑战。」宋煜说道。
探智立方的新产品面向机器学习模型和深度学习模型,在已有工具的基础上进行了大幅度改进。在数据自动分析工具DarwinMLDataFusion中,人们可以通过图形化界面,拖拉拽的形式控制系统自动整理数据。经过整理的数据不光在探智立方的平台上,在任何其他机器学习平台中都是可用的。
在核心产品DarwinMLStudio中,探智立方新增了大量特征工程扩展,带来更为丰富的自动化能力,让「设计大脑」变得聪明,其中还包括数据增强和自动标注技术。此外,探智立方还对模型的结构生成进行了进一步优化,使其效率更高。
多个项目落地
现在,业务人员使用AutoML工具时可以更加高效,产生更多想法,将机器学习技术应用在更多的场景中。在新工具之外,探智立方介绍了一系列已经落地的项目。
在金融行业,探智立方与一家支付机构进行了合作,在商户的风险识别模型上进行了技术验证。目前,AI算法被用于识别用户套现、欺诈、非法交易类型等风险行为,该项目的成果已经上线。
「通过第一个项目从数据清洗、建模到最后上线的过程,客户很快学会了如何将AI落地流程泛化到其他业务中去。在项目验收时,我们看到客户已经使用DarwinML完成了另一个场景的自动建模,目前DarwinML自动建模的模型已经在用户的生产系统中上线了。」探智立方解决方案总监徐宁介绍道。「基于对需求、数据的了解,开发者可以充分发挥算法的能力。DarwinML会帮助你找到最优的模型结构、训练模型权重,让开发者只需关心业务场景需求是什么。」
「在第一个项目实现成功之后,用户掌握了DarwinML自动建模工具,就会发现他们的业务场景中有很多可以智能化的场景。」徐宁说道。
探智立方的另一个合作伙伴在医疗领域,该机构正在使用AI帮助医生排查阿尔茨海默症(老年痴呆)。在合作中,AI技术被应用到了筛查、诊断、康复的整个流程。通过AutoML等技术,疾病的初筛实现了自动化,医生诊断的工作负担被大大减轻。同时,在核磁共振、脑部血液检查等医疗影像任务中,人工智能也可以帮助医生进行判断。
在诊断流程自动化之上,计算机收集到的数据可以进行集中管理,帮助医生建立更为准确的辅助诊断模型。而在病情确诊以后,医疗机构可通过可穿戴设备对患者病情进行监控,制定康复计划,尽量延缓阿尔茨海默症的发展过程。
「国内绝大多数企业都没有强大的AI开发团队,DarwinML可以把AI的整个流程工具化,无需高度专业的AI建模知识就可以开展工作。」徐宁说道。「对于传统公司而言,招募AI建模的开发者难度很大。但使用DarwinML就可以很大程度上省去这一过程。」
探智立方的客户还包括部分证券投资领域。在本地化部署的条件下,探智立方成功帮助客户实现了量化投资模型,节省了大量人力。
基于进化算法的AutoML路线
在AI自动建模上,AutoML的实现路径其实包括四大方向:强化学习、进化算法,迁移学习方法及元学习(MetaLearning是未来有潜力的方向之一),各家公司的实现路径不同,不过大多数采用的是迁移学习。与众不同的是,探智立方一直坚持探索进化算法方向。
「强化学习模型收敛较难,对失败次数要求比较高,需要的计算量也不小,」宋煜表示。「目前业界应用最多的AutoML方法基于迁移学习(transferlearning),百度、华为、谷歌等公司推出的AutoML产品大多基于这种方法。」
不过后者也有缺点:需要背靠足够大的数据科学家团队,以及特定领域中丰富的模型种类。我们可以看到今天AutoML产品在图像领域里效果最优,这是因为图像领域中可以获取的资源是最多的(不仅是模型,甚至模型权重都有开源)。
但在大量其他领域,如果希望对时序、结构化数据进行处理和分析,没有一定之规,也没有现成权重,迁移的方法或许就无法适用了。
另一方面,基于序列模型的方法和元学习方法则会面临搜索空间过大后导致运算量需求指数级上升等不同挑战。
在探智立方,CTO钱广锐带领着研究人员一直致力于研究进化算法。「最重要的是,进化算法提供了另外一个可能性:它是真正有机会在机器学习模型设计任务中超越人类的算法,」宋煜说道。「不管是DAS还是NASNet,其前置条件都是固定配置。进化算法没有这个限定,它能够创造出全新的网络结构,可能是人们从未设计出过的模型。」
至少现在,DarwinML已经可以大幅度提高数据科学家的工作效率了。「一个由3个人组成,经验2-4年的数据科学团队,在一到两周时间内设计出来的模型,在使用DarwinML的情况下可以做到效果更好,而且机器的模型生成时间不超过一天。」宋煜表示。
探智立方解决方案总监徐宁和产品总监宋煜
在人工智能逐渐进入落地阶段的今天,AutoML等技术正逐渐成为趋势。「AutoML的方法很多,但这些技术的发展仍处于初期,」探智立方创始人、CEO施东峰说道。「在这个过程中,我们会在应用行业中找到一个端到端的,具有商业价值的场景。」
「我认为AutoML刚刚进入具备商业条件的阶段。」