AWS Glue
AWS 雲端
註冊更新

AWS Glue 是全受管 ETL 服務,可讓您在資料存放區之間輕鬆移動資料。AWS Glue 簡化並自動化困難且耗時的資料探索、轉換、映射和任務排程等任務。AWS Glue 透過易於使用的主控台引導您完成移動資料的程序,協助您了解資料來源、準備用於分析的資料,以及將資料可靠地從資料來源載入目的地。

AWS Glue 已與 Amazon S3Amazon RDSAmazon Redshift 整合,而且可以連接任何 JDBC 合規的資料存放區。AWS Glue 可自動地網路爬取您的資料來源、識別資料格式,然後建議結構描述和轉換,您無須花時間手動編寫資料流程的程式碼。接著,您可以使用 Python、Spark、Git 等已知的工具和您最愛的整合開發人員環境 (IDE) 視需要編輯這些轉換,並與其他 AWS Glue 使用者共享。AWS Glue 會排程您的 ETL 任務並佈建和擴展所需的所有基礎設施,讓您以快速且有效率的方式執行任何規模的 ETL 任務。無須管理任何伺服器,且只需支付 ETL 任務耗用的資源費用。

如需服務可用性的最新資訊,請在這裡註冊,我們將透過電子郵件隨時提供您最新資訊。

步驟 1. 建立您的資料型錄

首先,使用 AWS 管理主控台在 AWS Glue 註冊資料來源。AWS Glue 會網路爬取您的資料來源,並使用許多熱門來源格式和資料類型 (包含 JSON、CSV、Parquet 等) 的預先建立分類器來建構資料型錄。您也可以新增自己的分類器,或從 AWS Glue 社群選擇分類器加入您的網路爬取。


步驟 1. 自動建立您的資料型錄
步驟 1. 自動建立您的資料型錄

按一下以檢視較大的影像


步驟 2. 產生和編輯轉換

接著,選取資料來源和目標,AWS Glue 會產生 Python 程式碼以便從來源擷取資料、轉換資料以符合目標結構描述,再將資料載入目標。自動產生的程式碼可處理常見的錯誤案例,像是資料錯誤或硬體故障。您可以使用最喜愛的 IDE 來編輯此程式碼,並利用自己的範本資料進行測試。您也可以瀏覽其他 AWS Glue 使用者共享的程式碼,並將該程式碼放入您的任務。


步驟 2. 產生轉換
步驟 2. 產生轉換

按一下以檢視較大的影像


步驟 3. 排程和執行您的任務

最後,您可以使用 AWS Glue 靈活的排程器重複執行流程、執行流程以回應觸發程式,還可以回應 AWS Lambda 事件。AWS Glue 會在 Apache Spark 節點上自動分發您的 ETL 任務,因此在資料量增加時可保持 ETL 執行時間的一致。AWS Glue 會以正確的順序協調任務的執行,並自動重試失敗的任務。AWS Glue 會根據及時完成任務及降低成本等需要,彈性地擴展基礎設施。


步驟 3. 排程和執行您的任務
步驟 3. 排程和執行您的任務

按一下以檢視較大的影像


完成了。

就這麼簡單!ETL 任務進入生產階段之後,AWS Glue 可協助您追蹤中繼資料的變更,像是結構描述定義和資料格式,讓您的 ETL 任務保持在最新狀態。

如需服務可用性的最新資訊,請在這裡註冊,我們將透過電子郵件隨時提供您最新資訊。

註冊更新