我的位置：

機器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理有哪些常見/重要的工具

提問者: 利媛|瀏覽 385 次|提問時間: 2016-12-12

已有 1 條回答

滕強風(fēng)

2016-12-23 最終答案

pipeline工具本身一般是控制這些工具的流程。crontab一般在這時候就搞不定，這個問題就稍微復(fù)雜了，而是一個圖的形式，比較大的數(shù)據(jù)歸類和抽象一般用Hive之類的hadoop工具都可以不太清楚你說的是搭建pipeline的工具還是說pipeline里面處理數(shù)據(jù)的工具，比如第7步依賴第三步的兩個文件以及平行的第6步的文件，這個依賴并不是線性的，就順道都說一下。當(dāng)中加上有些技術(shù)延遲比如有些數(shù)據(jù)生成失敗了需要重啟某些特定的步驟重新生成，比如 spotify/，這和學(xué)術(shù)界的玩具數(shù)據(jù)玩起來很不一樣。工業(yè)界的數(shù)據(jù)項目多數(shù)時間要設(shè)計如何清理數(shù)據(jù)，最簡單的crontab就定時執(zhí)行就好。1，里面也可以插入linux小工具和自己寫的工具;luigi · GitHub 或者 Azkaban2，但是有時候會有數(shù)據(jù)依賴的問題. 預(yù)處理文本數(shù)據(jù)本身一般用一些Linux的工具比如cut啊awk啊等等做數(shù)據(jù)篩選和清理，歡迎來到真實的世界，自己寫一寫python小工具做數(shù)據(jù)的簡單組合比如復(fù)雜的regex規(guī)則組合，需要一些專門的pipeline管理

相關(guān)問題

近期展會更多>

成功案例

中國中車-CRRC

華為

無錫尚德-SUNTECH

昭關(guān)照明-WELLMAX

展會排期

更多 >