“你们为什么不用流式处理呢?”吕秀萍放开鼠标,抬头看着满怀期盼地看着自己的学子们,“流式处理计算速度快,不用事先把数据储存起来再分析,数据流过系统,系统会立刻启动计算,直到得出结果,方便又快捷。”
林夏看着吕秀萍,脸上带着困惑:“可是流式处理对内存的要求很高,六室的电脑大多是32位的,内存有限,应该不能满足流式处理的计算速度吧?”当初他们就是考虑到这一点,才选择批处理的。
吕秀萍微微一笑,说:“没关系,我们可以用分布式处理系统操作。电脑室里有几十台计算机,我们把它们建成一个大数据集群,把数据平分到每台计算机里执行计算任务。这个项目的数据虽然多,但算不上海量,平均下来,每台计算机的负荷量并不大。”
大伙认真一想,觉得确实可行,眉目间的忧愁终于淡了一些。只有大张的眉头紧皱着,不知道在想什么。
沈盛也很开心,可是很快他又想到一个问题:“可是数据从进入系统到出来结果需要时间,少则一、两个小时,多则十多个小时。同时运行几十台电脑,而且运行时间这么久,还要开空调和风扇给电脑散热,耗电量会很大,学校会不会有意见?”
“这是小问题,你们不用担心,我会跟院长沟通的,你们专心做项目就行。”
“谢谢吕老师。”
大伙都开心地向吕老师道谢,没有人注意到旁边的大张心事重重地看着众人,一副欲言又止的样子。
无论如何,项目总算可以正常运作。
大伙松了一口气,却不敢松懈,马不停蹄地按照吕老师的指示,开始编写拓扑结构。
流式处理有三种框架,分别是Storm、Spark和Samza。这三种实时计算系统都具有低延迟、可扩展和容错性等优点,因为Storm允许增量计算,所以现在很多人都会首选这种框架。使用Storm时,首先要设计一个用于实时计算的图状结构,就是上同说到的拓扑。程序运行时,这个拓扑会被提交给集群,由集群中的主控节点分发代码,将任务分配给工作节点执行。
因为拓扑结构十分重要,大家都不敢马虎,写代码时都十分认真,但凡有一点点不完美,都重新编写。在大家的共同努力下,代码很快就完成了。
测试时,大家都很紧张。
电脑室里很静,偌大的教室里只听到计算机和空调运行时发出的细微声响。林夏坐在主机前,目不转睛地盯着显示器,握着鼠标的手微微颤抖着。大伙站在她的四周,眼睛同样紧紧地盯着显示器,神情紧张又期待。
林夏按下“确定”键,系统接收到指令,室内数十台计算机同时运行起来。显示器的窗口里的内容以肉眼看不清的速度飞快地变换,速度快而有节奏。
大伙屏着呼吸,眼睛紧紧地盯着显示器,眼看着十多分钟过去了,系统依旧正常运行着,大伙高悬的心终于放下了一些。
此时,墙上的挂钟已显示晚上六点多。林夏正想跟大家说,自己在这里看着,他们先去吃饭。旁边的大张已率先开口:“数据计算需要时间,你们先去吃饭,我一个人在这里守着就好。”
林夏说:“张师兄,你一个人怎么行,我跟你一块留下吧?”
“不用了,现在除了盯着计算机,也没有什么事情要做,我一个人就行。”
林夏见他十分坚持,便不再勉强:“那我给你带饭,你想吃什么?”
“肉丝炒米粉,谢谢。”
林夏点点头,跟大伙一起朝外走去。走到电脑室门口,她下意识地回头看了一眼——大张穿梭在电脑间,正认真地巡视,模样看上去并无不妥。可是不知道为什么,她老觉得他的眉目间似乎藏着一丝忧虑。
走在她旁边的陆苗苗好奇地问:“小夏,你在看什么?”
林夏秀眉微蹙,轻声说:“张师兄好像有心事。”
陆苗苗回头看了大张一眼,那张成熟的国字脸看上去一如既往的严肃,跟平常并无两样:“你肯定想多了!前两天大家因为批处理的事情都烦恼不已,现在问题好不容易解决了,张师兄高兴都来不及,怎么可能有心事呢?”
林夏深深地看了大张一眼,没有再说什么,跟着众人消失在教室门口……
当沈盛他们回到教室已是半个小时后的事,大张吃着林夏带回来的米粉,刘宇森和关成悦在电脑间巡视。
突然,刘宇森在一台电脑前停下,看着窗口里刚才还飞速变换、现在却缓缓滑行的内容,脸上神色顿变:“不好了!”
“发生什么事了?”林夏看着他,突然有种不好的预感。
刘宇森白着脸,眼神慌乱,语气急促地说:“集群内存容量不足,数据溢出,有部分数据丢失了!”
大伙一惊,快步朝他走去。大张拿着筷子的手一顿,脸上的神情变得凝重——
他一直担心的事情还是发生了!