2016年9月,世界最大单口径、最灵敏的射电望远镜——“中国天眼”FAST在贵州落成启用。在随后的10月,中科院国家天文台与阿里云在杭州云栖大会上,宣布结为战略合作伙伴。
4月17日,拓扑社与部分媒体一起,共同前往国家天文台怀柔太阳观测站,了解双方这18个月以来的合作成绩。
“现在人工智能技术这么发达,国家天文台上云之后,你们应该也会通过深度学习等技术来预测太阳活动吧?”有媒体问到。
“其实早在20多年前,我们就已经开始用深度学习来进行太阳黑子的活动预测了。”国家天文台怀柔太阳观测站的科学家回答。
国家天文台怀柔太阳观测站望远镜
每当我们形容一串大到不能具体计算的数字时,往往会用“天文数字”来指代。作为世界高精尖的研究学科之一,天文学是最早应用大数据的典型代表。
国家天文台台长严俊就曾表示,天文学是最早的数据驱动学科,早在10多年前就进入了大数据时代。有人预测,到2025年,天文观测相关的数据采集量将达到每年250亿TB。
崔辰州,是中国科学院国家天文台研究员、博士生导师、信息与计算中心主任。在当天的媒体沟通会上,他向我们介绍了天文学在大数据处理方面的强烈需求。
“FAST给我们带来了什么?其实就是大数据。在早期的时候,FAST产生的原始数据是38GB/秒。一天也就是3283TB的数据量。后期我们经过数据压缩和处理,数据量大约是原来的1/6,总量还是很大的。”崔辰州说。
也就是说,每天都在产生天文数字数据量的天文学研究探索,首先要面临的挑战就是海量数据存储和超大规模计算,
阿里云资深云计算架构师从越直言,像FAST这种数据量,无论是从数据收集、传输、存储、处理、分析、开放共享等各个环节来说,都是难度很高,非常有挑战性的问题。“不成熟的大数据解决方案根本无法承载如此大的数据量,更谈不上存储与计算。”
在从越眼中,庞大的数据下载,仿佛飞流直下的瀑布。如果设备和技术不完善势必会被数据击穿。他告诉我们,过去天文研究人员都是人工传送数据,背着移动硬盘来回跑。但上云之后,数据处理、传输、存储、分享等问题就都迎刃而解。
所以在如此庞大的数据处理需求面前,国家天文台与阿里云的合作就成了水到渠成的事。作为全球云计算3A阵营中的一员,阿里云的大数据处理、存储以及传输等实力在中国云厂商中的领先已无需赘述。
根据协议,双方合作成立国家天文台-阿里云天文大数据联合研究中心,并共同完成中国虚拟天文台上云项目。
从越介绍,目前,天文台主节点已成功上云。包括郭守敬望远镜(LAMOST)在内,涉及10亿个天体数据,都已通过该虚拟天文台向全球开放。
中国虚拟天文台网站首页
他强调,虚拟天文台的数据处理效率,与过去相比提高了20多倍,从原来的7天缩短为8小时;数据产品生成周期缩短9倍,从原来的180天缩短至20天。
不过,如此庞大的天文数据上云,除了能够推动我国天文学发展(当然这一作用已有巨大价值和意义),对于云计算、大数据、人工智能技术以及其他商业领域,又能带来怎样的价值?
对于这一问题,崔辰州直言:“天文数据最大的特点就是‘不能卖钱’。它可能不像商业数据,能够直接驱动商业模式。天文数据本身更多的价值还是在于天文学研究。不过,在这些数据处理过程中,相应的算法模型,处理能力等,却可以得到大幅的提高。”
从越也对这一问题表示了相同的看法。他告诉拓扑社,例如天文数据中含有大量的图片数据,这些图片数据其实可以用于图像识别的算法优化,并且因为数据量大,近似图像多,所以最终训练出的算法模型的精度会更高。
国家天文台与阿里云的合作中,还包括“天文数据挖掘”的天池大赛。其中有一位参赛选手王奇勋也向拓扑社介绍了天文数据与人工智能的结合。他表示,通过模型训练,他们能够将图像识别技术迁移到识别恒星光谱上,进而了解恒星的形成、星系演化甚至探索宇宙起源。
接下来,除了继续发挥云计算在天文科研方面的价值之外,阿里云与国家天文台还将继续推动更多数据与应用上云,包括更多的FAST数据上云(目前仅是其中一小部分),并且探索更多科普推广方式,激发大众探索星空奥秘。