Flink DataSet API #3 – 資料集的轉化(2)

在這篇文章中,我們將接續上一篇文章,介紹以下主題:

  • 傳遞參數給于函式(Passing Paramters to Functions):如何將相關參數傳遞給前述的自定義轉化函式。
  • 語義標注(Semantic Annotations):適當的為資料轉化操作使用語義標注,將可以使其節省一些不必要的資料移動或排序,進而提昇執行效率。我們將會介紹如何在 Flink 中使用語義標注。
  • 累加器及計數器(Accumulators and Counters):累加器(accumulators)是一個具有加法運算子和最終累加結果的簡單構造,可以在應用程式中的工作結束後,取得工作結果。對除錯(debug)及資料的初期觀察以發現進一步資訊時非常有用。
  • 除錯(Debugging):我們將介紹幾個在 Flink 中,能有效簡化資料分析應用程式開發的除錯方法。

Continue reading “Flink DataSet API #3 – 資料集的轉化(2)"

廣告

Flink DataSet API #5 – 平行執行(Parallel Execution)

在這篇文章中,我們首先將介紹 Flink 中對其應用程式的執行配置,接著介紹如何設置應用程式的平行執行(parallel execution)及執行計畫(execution plans)。接著將介紹如何讓平行執行的 instances 共享變數;最後介紹執行計畫的視覺化工具。 Continue reading “Flink DataSet API #5 – 平行執行(Parallel Execution)"