新聞中心
Automatic Hudi Cleaning操作說明

創(chuàng)新互聯(lián)專注于企業(yè)成都全網(wǎng)營銷推廣、網(wǎng)站重做改版、建始網(wǎng)站定制設(shè)計(jì)、自適應(yīng)品牌網(wǎng)站建設(shè)、H5場(chǎng)景定制、商城開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)公司、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計(jì)等建站業(yè)務(wù),價(jià)格優(yōu)惠性價(jià)比高,為建始等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。
自動(dòng)Hudi清理是Apache Hudi的一個(gè)功能,用于自動(dòng)刪除舊的、不再需要的數(shù)據(jù)集版本,這種清理基于配置的策略,可以定期或在數(shù)據(jù)寫入時(shí)執(zhí)行。
1. 配置Hudi清理策略
要配置Hudi清理策略,您需要在Hudi表的Spark SQL創(chuàng)建語句中指定HudiTableSink選項(xiàng),以下是一個(gè)示例:
CREATE TABLE hudi_table ( ... ) USING org.apache.hudi.spark.HoodieSparkSqlQueryableDataSource OPTIONS ( 'hoodie.data.publisher'='org.apache.hudi.spark.datasource.write.DataWriterFactory', 'hoodie.cleaner.commits.retained.time'='1d', 'hoodie.cleaner.min.commits'='5', 'hoodie.cleaner.enable'='true', 'hoodie.cleaner.schedule'='10 mins', 'hoodie.cleaner.policy'='COMPACTION' );
在這個(gè)例子中,我們配置了以下策略:
hoodie.cleaner.commits.retained.time: 保留最近1天的所有提交(即不會(huì)刪除這些提交)。
hoodie.cleaner.min.commits: 至少保留5個(gè)提交,即使它們的時(shí)間戳比hoodie.cleaner.commits.retained.time更老。
hoodie.cleaner.enable: 啟用自動(dòng)清理。
hoodie.cleaner.schedule: 每10分鐘進(jìn)行一次清理。
hoodie.cleaner.policy: 使用COMPACTION策略進(jìn)行清理。
2. 啟動(dòng)Hudi清理
一旦配置了清理策略,Hudi將在后臺(tái)自動(dòng)執(zhí)行清理任務(wù),如果您想手動(dòng)觸發(fā)清理,可以使用以下命令:
CALL system.hudi_clean('hudi_table');
這將立即執(zhí)行清理操作,而不是等待下一個(gè)計(jì)劃的清理周期。
3. 監(jiān)控和調(diào)試Hudi清理
要監(jiān)控和調(diào)試Hudi清理,您可以查看Hudi表的提交歷史和清理歷史,以下是一些有用的查詢:
查看所有提交:
SELECT * FROM hudi_table.hoodie_commits;
查看所有清理:
SELECT * FROM hudi_table.hoodie_cleans;
查看當(dāng)前保留的提交:
SELECT * FROM hudi_table.hoodie_retained_commits;
通過這些查詢,您可以了解Hudi清理是否按預(yù)期工作,以及是否需要調(diào)整清理策略。
當(dāng)前文章:automatic_HudiCleaning操作說明
URL標(biāo)題:http://m.jiaoqi3.com/article/copoijd.html


咨詢
建站咨詢
