7.4 数据导入最佳实践

1. 批量和实时导入如何选择

  • 从ODPS、OSS导入HybridDB,推荐使用insert overwrite select做批量导入

    • 一方面,批量导入适合大数据量导入,性能好
    • 二方面,批量导入适合数仓语义,即导入过程中旧数据可查,导入完成一键切换新数据。如果导入失败,新数据会回滚,不影响旧数据的查询
  • 从RDS、MySQL、HybridDB等导入HybridDB,看数据量情况

    • 数据量不大的(百万级别的表),推荐使用insert into select做实时导入
    • 数据量大的,推荐使用insert overwrite select做批量导入

2. 导入并发和资源说明

  • 单张表的导入会在系统内部串行,不同表之间的导入任务会并行,默认并行度是2

    举ODPS表导入HybridDB来说,同一张表的不同分区导入实际上会排队串行

    不同表的导入,同时提交,有并行度n个任务同时导入,出于资源控制,剩余的也会排队

  • 导入使用的是HybridDB内部的资源,与查询一样,属于同一个实例的资源。推荐导入任务在查询qps比较低的时候进行,比如12点以后,并推荐用户配置d2等定时任务,错峰做导入。

results matching ""

    No results matching ""