分析平台
在巨量資料的運算上,Apache Hadoop是目前最廣為人知的大資料處理平台,Hadoop包含Hadoop Distributed File System (HDFS)以及MapReduce架構用來進行資料的儲存和平行運算,然而Hadoop在運算的效能上依然有需要改進的地方,在Hadoop平台上的每一個步驟均需對檔案系統進行存取,資料存在資料庫中,並在資料庫中對資料進行擷取、運算,運算的效能往往會因Input和Output (I/O)存取造成瓶頸,使得巨量資料無法進行即時的處理分析,然而現在許多的應用均須要即時的得出運算結果,必須即時地完成資料分析,才能發揮巨量資料的價值,因此巨量資料的即時性分析成為目前研究的重要課題。
平台簡介
為了能夠即時對巨量資料進行分析,IBM推出了InfoSphere Steams平台,並將此種處理串流的運算稱為江河運算(Streams Computing),江河運算中資料不儲存在資料庫中,資料流過運算節點時就直接立即進行分析,不像傳統的資料會先被存入資料庫,等到運算需求進入後再把資料從資料庫拿出來計算,此種資料不儲存的運算模式將可大幅提升資料分析的效率與即時性。InfoSphere為先進即時巨量資料分析平台,透過分散式的硬體資源及各種資料擷取、分析工具,如圖所示,讓使用者能快速開發各式應用程式,其強大的處理能力可處理數以百萬計之多重來源資料。

編程語言
SPL為InfoSphere Streams 的編程語言,是一種分佈式數據流合成語言。它是一種類似C++ 或Java™ 的可擴展且全功能的語言,支持用戶定義的數據類型。可以使用SPL 或原生語言(C++ 或Java)編寫自定義函數, 也可以使用C++ 或Java 編寫用戶定義的運算符。
InfoSphere Streams 持續應用程序會描述一個導向圖,該圖由各個互聯且處理多個數據流的運算符組成。數據流可來自系統外部,或者在應用程序內部生成。
開發環境
InfoSphere Streams 提供了一個敏捷開發環境,該環境由Eclipse IDE、Streams Live Graph 視圖等組成。該平台還包含用於加速和簡化特定功能或解決方案開發的工具包:
- 標準工具包:
- 關係運算符:如Filter、Sort、Functor、Join、Punctor和Aggregate
- 適配器運算符:如FileSource、FileSink、DirectoryScan和Export
- 實用程序運算符:如Custom Split 、 Union 、 Delay
- 互聯網工具包:包括HTTP 、 FTP 、 HTTPS 、 FTPS和RSS等運算符