今週も特にありません

進捗どうですか?

2020-05-01から1ヶ月間の記事一覧

dplyr グループごとに指数化

グループごとにある時点における数値をもとにした指数化を行いたい。 何らかの売上データが時系列であるとする。 > library(tidyverse) > library(lubridate) > > sales_tbl <- tibble( + sales_date = rep(seq(ymd("2020-05-01"), ymd("2020-05-31"), by = …

Spark 集約関数 collect_list, collect_set

配列に集約する操作であるので、aggの中で関数を適用することになる。 scala> val df = Seq( ("p00001", "food", 200), ("p00002", "food", 500), ("p00003", "food", 800), ("p00004", "food", 500), ("p00005", "food", 700), ("p00006", "book", 900), ("…