技术层:国产语音识别算法取得突破
技术层包括算法平台、图像识别、自然语言识别处理和智能机器人。当前,国内的人工智能技术平台主要聚焦于计算机视觉、语音识别和语言技术处理领域,国内技术层公司发展势头也随之迅猛,其中有代表性的企业包括科大讯飞、格灵深瞳、捷通华声(灵云)、地平线、SenseTime、永洪科技、旷视科技、云知声等。
麦肯锡的一份研究报告对中国人工智能发展状态进行了全面而细致的梳理。麦肯锡认为,中国在算法开发方面与其他国家相当。中国的研究者在开发用于语音识别和定向广告的算法方面已经取得突破。得益于全球的开源平台,中国企业能够快速复制其他地方开发的最先进的算法。
中国科技战略研究院有关专家对记者表示,“人工智能产业的发展离不开海量数据的支撑,数据训练量的大小影响着算法实现的成熟度。”阿里云iDST总监初敏表示,算法、数据、计算平台、用户、商业模式,用互联网的思维把这五个因素串起来,人工智能迭代才能非常快。以更快的速度使用反馈数据来更新模型,形成这样的正循环周期后,效果就会越来越好。哪怕就是算法不变,只要能不断地反馈数据并不断优化,过一两个月之后,它的能力也会好很多。
国内的曙光公司联合众多企业成立了航天星图、中科三清、曙光易通,锁定数据。航天星图专注于地理空间大数据处理、可视化应用,中科三清由曙光与中科院物理所合资,专注于大气、水以及土壤污染的预报、预警,治理评估和应急提供可行性的解决方案。除了传统IT企业在抢数据资源之外,事实上,中国也涌现了很多运营和经营数据的公司,比如数据堂、星图数据、百分点等,并涌现了更多公共数据开放平台。
数据显示,2016年中国数据总量占全球数据总量的14%。据预测,到2020年,中国的数据总量将占全球数据总量的20%,届时中国将成为世界第一数据资源大国和全球的数据中心。
创新工场人工智能战略白皮书显示,数据隐私、数据安全对人工智能技术建立跨行业、跨领域的大数据模型提出了政策、法规与监管方面的要求。各垂直领域的从业者从商业利益出发,也为数据的共享和流转限定了基本的规则和边界。此外,许多传统行业的数据积累在规范程度和流转效率上还远未达到可充分发挥人工智能技术潜能的程度。
麦肯锡表示,中国的大技术公司通过它们专有的平台收集数据,但中国在创建数据友好的生态系统方面落后于美国,缺少统一的标准和跨平台的共享。从世界有关国家看,开放政府数据有助于私营部门的创新,但中国公共部门开放的数据相对较少。