一、大数据是现代人工智能的基础
现在被人们广泛提起的人工智能都是基于“神经网络”和“深度学习”的计算机算法,最有名的非AlphaGo莫属。它们的共同特点就是:要先针对某种特定的人类行为进行自主学习,然后形成具体的逻辑模式,再在具体的场景下进行决策。
三字经里说“人不学,不知义”,可见学习对于人来说有塑造性格和行为的作用。学习对于人工智能来说,也有一样重要的作用。那么AI的学习资料是什么?数据,大数据!反复训练识别图片,可以让计算机分辨什么是猫什么是狗;反复辨别人类语言,造就了Siri和Cortana;反复学习棋谱,让AlphaGo战胜人类高手。
工程建设行业如果要引入人工智能,学习这个环节便是重中之重。所以如何形成数据库,如何积累大数据就是基础中的基础。
二、什么数据是有用的数据
行业里有很多企业都在试图做“平台”,例如材料采购平台、企业管理平台、工程信息共享平台等。按理说,平台既成,则数据就可以源源不断地汇集了。可是,这些数据的价值能有多大?
概率学里有一个很基本的原理:样本量越大,抽样误差就越小。但是工程行业里的企业平台都是典型的各自为政状态,每个企业集团都拥有自己的独立平台。而且每个集团都足够大,以至于它们既相互不买账,又没有绝对的优势以压倒对手。所以,从数据的角度来说,整个行业处在“鸡犬之声相闻,老死不相往来”的状态。搜集的数据缺乏行业共通性,而带有明显的企业特色。
此外,这些平台能够搜集的数据都以组织管理和电子商务方向为主的,并不是工程建设行业具有的独占特征的数据。组织管理和电子商务方向的数据收集和分析都已经有成熟的公司捷足先登,例如IBM和阿里巴巴。作为工程行业的公司再去涉足这些领域,既没有技术优势,也没有商业推广能力。于是,论企业管理数据,比不过IBM之类的公司;论采购交易数据,比不过阿里巴巴之类的公司;论数据检索,比不过Google等公司……那些IT界的巨头们已经在那些容易获取的又很通用的数据上已经深耕细作多年,建立起了技术和时间的壁垒。再要有公司在这些数据上做文章,不仅成本控制不及它们,而且结论还不比人家准确。 那么工程建设行业的什么数据才算有价值?具备行业特征的行为数据。
工程师和建筑师在屏幕前的行为特征和普通网络使用者的行为模式是有区别的,他们要处理原始信息,并把结论输出成文案、图纸和模型。他们的行事逻辑和行为目的都带有明显的行业特征,这是工程建设行业独有的特征鲜明的数据。如果将其整理保存,就有可能得到数字化的行为模式,才能衍生出各种新的应用形式。
三、工程建设行业的大数据困境
既然说具备行业特征的行为数据很有价值,那为什么工程建设行业至今没有形成大数据?这就又涉及到成本的问题了。
通过观察现有的那些与大数据相关的案例,不难发现,比较成功的应用不是能够以很低的成本获取数据,就是有大资本维持运作。前者是典型的现代互联网公司的做法。用户在线上购物时,浏览了什么商品,把什么商品投入购物车,给什么商品下单,都可以作为行为数据记录下来。由于这些产生数据的行为本来就是平台业务流程的不可回避的环节,所以几乎不存在增加业务成本低问题,至多就是在数据存储上需要额外花点钱。而后者则是许多正在引入人工智能的大型传统企业的做法,例如汽车企业的自动驾驶研发。沃尔沃、福特、通用等车企,在做自动驾驶研发时,无一例外都是组织一批车辆,在各种城市的大街小巷不停地跑,用图像传感器记录道路的各种特征数据,用于优化智能判断的算法。这种用数据获取的方式让这些车企每年要多付出几千万甚至上亿的美元,可谓烧钱凑数据。
那么工程建设行业的企业应该选用那种方式呢?要回答这个问题,先要做点简单的数学计算。许多行业内的基本数据的录入至今仍处在人工手输的状态。假定每个人每天工作8小时,每小时输入120条数据,而每个人的日工资是100元人民币(折算月收入约2200元,约等于2016年上海最低工资标准),那么每条数据的获取成本就是0.104元。再假定,每条数据的平均大小是2KB(约1000个汉字的规模,但内容不仅仅是汉字),那么1GB的企业数据就需要54,526元。一般来说,达到PB级(1PB=1,024TB=1,048,576GB)的数据规模才能称为大数据,这个数据成本就成为了天文数字,哪怕只是达到TB级别,也至少需要55,834,575元。还有一点不能忽略,此处还没有计算时间的消耗。
只需看看数字,用脚趾头都能想明白,烧钱凑数据这条路是走不通的。行业内的企业一般没这么雄厚的资金实力,即便有,时间成本可能也负担不起。所以只剩下降低数据获取成本这唯一的一条路了。不过分地说,要摆脱大数据困境,业内企业就必须找到在业务流程中记录行为数据的方法,也就是要创造有专业特征的数据入口。
四、BIM有成为数据入口的潜力
BIM因为一直强调内涵信息和数据,而且BIM的数据库本来就有很标准化的结构框架,所以在积累和存储工程数据上就具备了一定的基础条件。但是,具备了基础条件不代表就能成为数据入口,BIM还是存在两个比较明显的问题。
首先,BIM需要提升易用性。BIM建模和应用现在仍然需要依赖各种专业软件,相关的人员也要经过培训才能熟练使用。以至于很多设计师和工程师总是认为BIM太难学而放弃相关努力,以至于很多创造价值的行为总不能直接与软件对接。须知曲高必然和寡,只有提升BIM应用的易用性,就像微信微博那样,人人都能轻易学会使用,BIM才算在技术上获得了成为数据入口的可能性。
其次,BIM的用户群体需要再扩大。如果在一家企业里,始终是BIM团队在负责建模和相关应用的话,那永远都只有很小规模的用户群在通过软件记录数据。一方面,数据样本太单调,没法通过对数据的分析获得接近事实的结论;另一方面,用户群体太小,则单位时间内录入数据量就很小,不仅会增加数据积压的可能性,还会让BIM团队产生疲倦和厌恶感。如果人人都能通过一些简单操作,与BIM数据产生互动,那么就可能积跬步而至千里,积小流而成江海。
在近期的一次活动上,马化腾给大数据和智能算法打了一个形象的比喻,大数据就类似于工业革命初期的煤炭,而智能算法是改良蒸汽机。智能计算需要大数据燃料不断提供运转动力,才能源源不断地输出生产力。工程建设行业迟早也是要进入智能时代的,要实现智能就先要有大数据作保障;要取得大数据,就先要建立优秀的数据入口;要建立优秀的数据入口,第一步就是从使用者的角度思考,制作易用而受欢迎的应用程序。如果每一步都能够踏实地迈出,工程建设行业才能真正拥抱大数据。