“早春江上雨初晴,杨柳丝丝夹岸莺。画舫烟波双桨急,小桥风浪一帆轻。”
平仄规矩、清新别致,这首不久前引发热议的小诗读起来是不是朗朗上口?如果告诉你,它的作者是个机器人,你会不会大吃一惊?事实上,对于人工智能来说,吟诗作对只是牛刀小试
如今,随着人工智能技术日新月异,各式各样的智能机器人早已各显其通。“强大的人工智能崛起,要么是人类历史上最好的事,要么是最糟的。我们应该竭尽所能,确保它的未来发展对我们和环境有利。”斯蒂芬·霍金生前如是警醒。当创作这一被视为“人类精神文化的堡垒”被逐渐攻破,你我手中的饭碗是不是已岌岌可危?
写稿作诗——信手拈来
人工智能写稿机器人不但任劳任怨、迅如闪电,其原创诗集更圈粉无数
白皙的脸上架副眼镜,身材颀长,北京大学计算机科学技术研究所研究员万小军投身人工智能领域已有十几年。早年专注自然语言处理技术的他,2016年8月份曾与今日头条实验室联合研发推出国内第一款综合利用大数据分析、自然语言处理与机器学习技术的人工智能写稿机器人——“张小明”。
“北京时间8月10日00:00,现世界排名第2的丁宁在奥运会乒乓球女子单打四分之一决赛中胜出,确保进入下一轮。丁宁本轮的对手是现世界排名第7的韩英,实力不俗。但经过4场大战的激烈较量,最终,丁宁还是以总比分4:0战胜对手,笑到了最后,为中国延续了在这个系列赛事中最终夺冠的机会。”
里约奥运会期间,“张小明”正式上岗,成为众多记者中的一员。16天撰写450多篇体育新闻,并以与直播同步的速度发布,“张小明”最终不负众望,一战成名。
任劳任怨、迅如闪电,这是“张小明”们最大的卖点:2017年四川九寨沟地震时,某机器人仅用时25秒就写出了速报,通过国家地震台官方微信全球首发;第一财经的“DT稿王”有着1900篇/天的产出速度,这相当于100位资深证券编辑1个小时的产量;2017年,面向民生领域的写稿机器人“小南”惊艳亮相,从数据采集分析到文稿结构规划,再到遣词造句,仅用时不到1秒就完成了文稿……
快,不是创作型机器人唯一的优势。
“看那星,闪烁的几颗星/西山上的太阳/青蛙儿正在远远的浅水/她嫁了人间许多的颜色”。自出生之日起,“小冰”匿名投稿的诗篇多次被《北京晨报》《长江诗歌》等刊发。她的第一部原创诗集《阳光失了玻璃窗》,更是圈粉无数。
胡适、李金发、林徽因、徐志摩、闻一多、余光中、北岛、顾城、舒婷、海子、汪国真……擅长诗歌的“小冰”,师承1920年以来的519位中国现代诗人。历经6000分钟、1万次的迭代学习,如今“小冰”已形成了一套属于自己的独特文风和行文技巧。
“如果说,小冰以前的诗还只是小学生水平,那么现在算得上是大一新生的水平了。”诗人周瑟瑟曾如是点评。
功夫如何练就——深度学习
创作型机器人的核心技术是自然语言理解与生成,这主要由深度学习技术来实现
“你那边天气怎样——广州,今日:多云17℃~26℃;明日:多云18℃~27℃。深圳,今日:多云18℃~26℃;明日:多云19℃~27℃。”执行完春运任务后,“小南”又添了一项技能——播报天气。
不断成长的“小南”只是近年来创作型机器人迅速崛起的一个剪影。这些“大牛”们究竟是怎样炼成的?万小军告诉经济日报记者,无论是写诗机器人还是写稿机器人,其核心技术都是自然语言理解与生成,而自然语言的处理是目前人工智能领域难度最大的课题之一。
“写稿机器人实际上是一款利用编程语言实现的智能写稿软件。”万小军说,从现有写稿机器人来看,它们多数专注于财经、体育等领域,因为这两个领域具有一定规则和数据可循,实现起来相对容易。目前机器人写稿主要有两种方式:原创和二次创作。原创,即借助结构化的数据来生成稿件,比如利用数据库可以直接写成天气预报、财报和年报的稿件。二次创作,即对已有的相关报道进行拼凑,进而改写成为新的稿件。
不过,两者所依赖的技术并不完全一致。原创采用的是自然语言生成技术,是从结构化数据/意义表达生成自然语言语句。二次创作采用的是自动摘要技术,从已有的文字素材中进行摘要,从而生成一个新的稿件。例如,一个体育简讯的生成需要先从网上抓取关于体育赛事的一些基本数据,据此做一些数据分析,就可以生成一个比较简单的体育赛事报道,这就属于原创。
据业内人士吴俣的说法,所谓自动撰稿机器人,广义的说也可称为“文本生成”。它的写稿方式之一是抽句子——找一堆句子,拼成一篇文章。写稿机器人“张小明”就是利用这项技术实现基于体育直播文字的体育长文自动生成,从而走在技术前列。
写诗机器人,也不例外。“目前写诗机器人主要基于深度学习技术,对它来说,学习样本越大越有规律可循,学起来效果也更好。”在万小军看来,机器人写诗其实是个“编码与解码”过程,编码过程对用户输入信息进行语义编码,解码过程则逐词生成得到每行诗。研究人员先搜集成千上万首诗,利用诗的标题或关键词作为输入,训练深度学习模型生成相对应的诗句。充分学习训练后,机器人会摸索出一套作诗的规律,按照主题需要解码输出第一句诗,然后把这句诗与输入的关键词合并作为新的输入,就可解码得到第二句,如此循环便可得到一首完整的诗。
“人工智能特别擅长写这种有规律的、被条条框框约束的内容,在一些简单重复性的脑力劳动中,它具有一些先天优势。”万小军称。
能否取代人类——分工协作
创作型人工智能的优势是执行简单、重复性的创作输出,而人类可以聚焦更富创造性的智力劳动
日本研发的人工智能创作了科幻小说《电脑写小说的那一天》,不仅骗过了所有人类评审,还成功入围日本微小说文学奖;谷歌人工智能还可进行绘画创作,有画作被拍出了8000美元高价……当智能机器人大行其道,人类会不会真如霍金所言“大难来临”?
“让机器具有思维与情感、学会推理和归纳,短时间还做不到。”万小军以“小南”举例,在教小南写稿过程中,遇到的一个难点就是可供学习的样本不够丰富,训练语料较为缺乏。而且,因为缺乏情感表达和思维能力,它写出的作品大多平铺直叙,不够生动。如果仅看几篇没有太大问题,看多了难免会感觉单调、枯燥。
写诗机器人同样存在类似的问题。万小军说,得益于近年来深度学习技术的进步,机器人写诗水平有了质的飞跃——由于古诗中留有大量写景诗,它们尤其擅长写景抒情。这些诗普通人猛一看“嗯,不错,挺美”,但若让对古诗颇有研究的专家审视,便免不了一番品评。另外,它或许可以模仿得有模有样,但若交给它一个从未遇过的主题,就很难胜任了。
不仅行文相对单一,“小冰”“小南”们即便写出了美文,也不知道自己写的是啥,更谈不上陶醉其中自我欣赏。“记者写稿时很清楚他在写什么,知道自己要表达的语义信息。”万小军说,机器人不然,虽然它把每一个句子都写出来了,但内容是什么,它不知道也无法理解,这是人和机器最大的不同,对写诗机器人来说同样适用。
关于这点,知乎专栏作者萧瑟曾在《当AI邂逅艺术:机器写诗综述》一文中有过这样的描述:机器诗歌生成的工作,起始于20世纪70年代。但在计算机诞生之前,就有好事者弄了个高频诗歌词语转盘,转到哪个词就记录下来,然后连起来形成一首“诗”。这种诗自然会出现类似“苹果吃姑娘,残红杀马特”这样逻辑不通、不伦不类的句子。当然,也可能偶然搞出佳句。
虽然前路依旧漫漫,但随着深度学习技术的发展和数据积累,人工智能的春天已渐行渐近。“就写稿机器人而言,目前它仅能做到将一个基本的新闻事实描述清楚;一些深度、调查类报道还必须依赖记者完成。创作型人工智能的优势是执行一些简单、重复性的创作输出,人类可以集中精力聚焦一些更富创造性的智力劳动,构建一种和谐的分工协作关系。”万小军说。