机构媒体应用AI技术的探索与思考

2019-12-20 14:15

　　随着AI技术与媒体行业的结合日益紧密，技术创新不断深化，应用场景不断出新。光明网在尝试了机器人写作之后，又连续开发了小明AI两会、AI写作助手、智能内容分拣与分发系统等应用，既创造了巨大的流量，也让更多的人力投入到优质原创内容的生产中。

　　机构媒体应用AI技术的探索与思考

　　陈建栋

　　2016年11月，光明网推出第一个人工智能新闻信息服务平台——光明小明，开启了光明网AI应用的探索。此后，光明网结合媒体应用场景，在内容生产环节更深入地利用AI技术，显著提高了内容生产效率和信息分发能力。本文结合光明网的实践，谈谈机构媒体应用AI技术的探索与思考。

　　重点在生产环节

　　从媒体实践来看，AI技术在媒体领域的应用，已经涉及媒体的生产、交互和分发，涵盖媒体生产全过程。

　　在生产环节，机器人写作以及短视频中通过人脸识别、动作捕捉实现的各种特效，都极大地提高了媒体生产效率，增强了内容的趣味性。AI技术在视频领域的应用，有效降低了视频制作的门槛，推动了一批短视频应用的崛起。AI技术不仅可以提高内容生产的速度、提升内容产品的质量、降低编辑审核的压力，还可以丰富内容形态，增强最终产品的趣味性、个性化。随着AI技术与媒体行业结合日益紧密，技术创新不断深化，应用场景不断出现，应用前景也更加明朗。因此，机构媒体在创新AI应用时，应重点关注内容生产环节。当然，生产环节的应用也会带来交互环节、分发环节的改进。

　　关键在解决数据问题

　　人工智能技术是以大数据为支撑的。AI模型，需要大量的数据进行训练；AI产品，需要从大量数据中去挖掘，但数据却是机构媒体的短板。与政府机构和大型互联网公司相比，机构媒体拥有的数据往往少得可怜。如何解决数据短缺情况下的AI应用呢？一个可行的方法是寻找适合自身特色的独有数据，或者称之为“小数据”。

　　2017年全国两会期间，光明网推出了“小明AI两会”。这个产品的基本功能是：用户输入一位代表委员的名字，或者拍摄一张代表委员的照片（可以是真人，也可以是媒体刊登的照片），“小明”就可以快速识别出代表委员的身份，展示这名代表委员的履职情况，包括历年关注的领域、发表的主要观点等；同时，通过语料分析，对人物属性比较接近的群体进行分析，形成人物图谱，展示出关注同类话题、相同领域的其他代表委员。

　　这是一个典型的“小数据”应用。我们将数据收集的范围限定为当年出席两会的5000余位代表委员，降低了数据收集难度。首先通过权威渠道收集了全部代表委员的名单；然后从光明日报、光明网和其他权威媒体历年的两会报道中，抓取40多万篇文章和两万多张图片；之后再进行数据清洗和挖掘，从中提取出29万余个词汇和5000多个关键词；最后再用这些数据对技术模型进行训练，使之能够按照我们设定的逻辑，结合当年两会的日程和热点，针对每一位代表委员生成个性化的报道内容。

　　“小明AI两会”显著提高了两会报道的效率，拓展了两会报道的广度，几乎实现了对全部两会代表委员的报道。从用户反馈来看，2017年两会期间，网友通过“小明AI两会”查询两会信息达到1828万次，被查询的代表委员超过2900人。这是传统的报道方式几乎不可能做到的。

　　困难在找准媒体痛点

　　在AI技术刚刚出现的时候，很多媒体采用了机器人写作。机器人写作的速度优势很突出，但劣势也很明显：一是应用范围有限，基本上只能用于体育赛事、财经信息等具有结构化数据的领域；二是以目前的技术水平，写作质量无法与人工创作相提并论。尤其是，将原本一目了然的结构化信息，再通过机器人加工成稿件，是否有必要？这本身就是值得探讨的问题。

　　正是基于这一认识，光明网在尝试了机器人写作之后，将重点转向AI辅助写作，致力于利用AI技术帮助记者编辑提高写作效率，并与合作伙伴联合开发了“AI写作助手”。

　　“AI写作助手”主要能够实现四个方面的功能：一是事件梳理。当新闻事件发生后，“AI写作助手”能够快速梳理事件脉络和其他媒体的报道，在帮助编辑记者掌握事件背景资料的同时，快速找到报道的重点；二是数据整理。“AI写作助手”会自动收集权威部门发布的各种数据报告和各种历史资料，当新闻报道需要数据或资料支撑时，可以进行快速挖掘整理；三是图表匹配。除了数据报告之外，“AI写作助手”还建设自有版权图片库、视频素材库等内容，可以根据报道的需要，快速制作图表、匹配插图、视频等内容；四是影响力评估。新闻报道发布后，“AI写作助手”会对稿件传播情况进行跟踪评估，判断下一步事件走向、用户关注热点等，从而帮助编辑记者不断改进报道质量。从测试情况来看，使用“AI写作助手”以后，编辑记者的写作效率提高了5倍左右。

　　可贵在形成持续生产力

　　当前，机构媒体对于AI技术，更多的是将其作为一种技术应用创新，在一些重点报道中打造独特的新型媒体产品，通过给用户提供前所未有的新体验来吸引用户广泛参与，提升新闻宣传的到达率和影响力。近年来，在重大主题报道中，一些机构媒体利用AI技术策划推出的产品，的确在网上形成了“刷屏”效应，产生了巨大的影响力。但是，新闻宣传是一项长期的工作，在AI技术日益成熟的情况下，如何将AI转化为机构媒体的常用工具，形成持续的生产力，更是应该认真思考的问题。

　　在新闻网站的工作流程中，除了发布原创稿件之外，还要从合作媒体转载大量稿件，并分发到各种不同的传播平台和渠道中去。以前，这项工作基本上依靠人工来完成。编辑不仅要去搜寻稿件，还要加工、审核，然后再根据稿件内容发布到不同的渠道，过程费时费力，还容易出错。为解决这个问题，2018年，光明网开发了“智能内容分拣与分发系统”。

　　这个系统的工作流程是：第一步，从建立合作关系的媒体稿源自动抓取稿件，加入稿件素材库；第二步，对素材库的稿件进行自动“清洗”，去除重复稿件、广告稿件、违规稿件、有版权风险的稿件等，提取出优质内容；第三步，对优质稿件进行判别，需要配图的稿件，机器自动识别稿件内容，从光明网自有版权图片库中自动抽取相应的图片进行配图后进入待审库；第四步，对于待审库的稿件，机器会自动设置审核重点提醒，如网络不文明词语、版权标识、敏感人物、敏感事件、广告信息等，方便人工快速审核。所有稿件经过人工审核后，进入待发布库；第五步，机器对待发布库的稿件进行自动分类，并根据不同平台对稿件的需求进行自动组合，并进行发布；第六步，系统对发布出去的稿件进行跟踪，统计稿件传播情况，为后续改进提供决策依据。

　　目前，应用这个系统，光明网每天从1500多个稿源采集超过1万条信息，从中提取出4500多篇优质稿件，并建立了一个拥有两万多张图片的自有版权图片库，自动配图准确率达到80%以上，每天向30多个渠道自动发布稿件，各渠道全年累计发布稿件总量近1000万条。这个系统已经成为光明网日常内容生产力的重要组成部分，在大幅减少编辑人员的情况下，创造了巨大的流量，从而使我们有更多的人力投入到原创优质内容的生产中。

　　为了让AI形成持续的生产力，媒体也需要完成人员的角色转型，由以编辑记者为主，转变为“编辑+产品经理+AI训练师”的模式。编辑负责稿源确定与最终审核；产品经理负责分析产品需求，设计产品模型；AI训练师要不断收集数据、分析数据，对AI技术模型进行训练和修正，只有这样，才能开发出适合媒体发展需要的AI产品。

　　未来，AI技术应用仍需继续研究媒体应用场景，只有与应用场景结合的AI，才能获得广阔的发展空间。

机构媒体应用AI技术的探索与思考

最新推荐

今日热点