该技术广泛运用于各个行业,其中包括视频监控系统、社交媒体平台的相关功能(含脸部识别以及类似微博的“可能认识的人”等),我们甚至可以训练电脑识别出邮箱中带有明显“垃圾”特征或低质量的邮件内容,并将其过滤。
为此,人们在机器学习和人工智能行业投入了数十亿美元的资金。2016年,互联网数据中心(IDC)发布了一份全球半年度认知/人工智能系统开支指南。该报告预测,由于认知系统和人工智能的广泛应用,到2020年,全球收入将从2016年的近80亿美元上升至470多亿美元,相当于高达55%的年增长率。
透过这些惊人的数字,人工智能和机器学习的潜在益处显而易见。但是将之运用到实际中所需的庞大数据等潜在问题并未具体说明,目前仍然困难重重。
InfoWorld发布的行业数据表明,当前机器学习行业所面临的“最大挑战”是缺乏培训数据。据估计,全球99%的数据还未经过分析,且非结构化数据超过80%,这意味着即使人工智能公司能够获取这些数据,他们还得花费大笔资金雇佣工作人员查看和标记数据,分析标记完的数据才能导入计算机,其过程十分耗时费财。IDC报告指出,鉴于人工智能行业发展迅速,价值匪浅,各个企业亟需趁热打铁,踊跃加入。
数据(人工制造而非直接获得或收集的数据)可以解决数据访问问题,但是为确保人工智能和机器学习模型正确,需要大量的计算能力对计算机进行培训。例如,DeepMind团队的分布式AlphaGo之所以能够战胜世界围棋冠军李世石,是因为它的1202个CPU和176个CPU,该CPU量是单个计算机版本AlphaGo算法的25倍。