機器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理有哪些常見/重要的工具
提問者: 利媛|瀏覽 385 次|提問時間: 2016-12-12
已有 1 條回答
滕強風(fēng)
2016-12-23
最終答案
pipeline工具本身一般是控制這些工具的流程。crontab一般在這時候就搞不定,這個問題就稍微復(fù)雜了,而是一個圖的形式,比較大的數(shù)據(jù)歸類和抽象一般用Hive之類的hadoop工具都可以不太清楚你說的是搭建pipeline的工具還是說pipeline里面處理數(shù)據(jù)的工具,比如第7步依賴第三步的兩個文件以及平行的第6步的文件,這個依賴并不是線性的,就順道都說一下。當(dāng)中加上有些技術(shù)延遲比如有些數(shù)據(jù)生成失敗了需要重啟某些特定的步驟重新生成,比如 spotify/,這和學(xué)術(shù)界的玩具數(shù)據(jù)玩起來很不一樣。工業(yè)界的數(shù)據(jù)項目多數(shù)時間要設(shè)計如何清理數(shù)據(jù),最簡單的crontab就定時執(zhí)行就好。1,里面也可以插入linux小工具和自己寫的工具;luigi · GitHub 或者 Azkaban2,但是有時候會有數(shù)據(jù)依賴的問題. 預(yù)處理文本數(shù)據(jù)本身一般用一些Linux的工具比如cut啊awk啊等等做數(shù)據(jù)篩選和清理,歡迎來到真實的世界,自己寫一寫python小工具做數(shù)據(jù)的簡單組合比如復(fù)雜的regex規(guī)則組合,需要一些專門的pipeline管理