aws glueでできることと監視の必要性やその方法

従来のサーバー構築では、自社でハードウェアを整備し、情報システム部などで管理することが一般的でしたが、近年は機器もメンテナンスも外部に委託できるクラウドサービスが主流になってきました。その代表格といえるのが、amazonが提供するawsです。

amazonでは、関連する様々なサービスを展開しており、その一つがaws glueです。こちらでは、aws glueの機能や監視の必要性、監視方法やそのコツなどを解説します。

合わせて読む:awsでオープンソースのredisを監視する方法

aws glueのサービス内容と開発された背景

aws glueは、awsとして知られるamzon web servicesが提供しているサービスです。こちらは、ほとんどのサーバー管理を利用者に代わって代行する「フルマネージド」型のサービスで、自社にITの知識や技術を持つ人材を置かなくても運営できる点が魅力です。

サービスの利用に注力できる点が、フルマネージド型サービスの醍醐味といえるでしょう。接着剤を意味する「glue」という言葉が含まれていることから推察できるように、aws glueは、awsで展開する様々なサービスを連携させたり、仲介することが可能です。

aws glueが提供する主なサービスが、データの抽出と変換、書込です。データソースからデータを抽出し、それを変換してデータフォーマットとして整えます。そして、分析を目的としてデータを保存するデータウェアハウスや、データベースなどに書き込んで、データを蓄積するまでの作業を担います。

これらの作業は、今後のビジネス展開に生かすために必須の作業といえるため、aws glueの果たす役割は大きいといえます。aws glueが開発された背景には、ビジネスの必要性とともに、データの利用方法の進化が関係しています。

従来のデータの持ち方や分析の仕方は、あらかじめデータ構造を最適化し、必要なデータを抽出したうえで、加工し保存しておくことが求められるだけでした。ですが、近年ではビッグデータが浸透し、まずはデータソースそのものを保存しておき、ビジネスの必要性や用途に合わせて、一つのデータを多角的に、頻繁に分析する必要が出てきました。

そのため、大規模で大量のデータ保存が可能で、高速でデータ処理を行える環境が求められるようになり、そのニーズを汲んだaws glueが登場するに至りました。

aws glueの主な機能

こちらでは、aws glueが持つ主な機能を取り上げ、aws glueが持つ可能性についての理解できるようにしたいと思います。まず、aws glueは、データストアという機能を持っています。これは、データを保存する貯蔵庫のような役割を果たす機能で、データを抽出・変換・書込処理をする際の入力先として使用されます。

データカタログも、aws glueの優れた機能といえるでしょう。保存するデータが大量になると、それぞれのデータのかたまりが、どのような特徴を持つのか把握できず、蓄積するだけでデータを使いこなせないという事態が生じます。

それを解決するのが、データカタログ機能です。データカタログ機能を使うと、そのデータの属性など、メタデータと呼ばれる付帯情報を記載できます。これは、レコードやCDでいう、タイトルやアーティスト名、ジャンルなどの曲情報に当たります。

クローラは、データストアに関係するメタデータを作成する機能です。メタデータの情報源となる、データベースのもととなるテーブルやプロパティ、データ構造などから必要な情報を抽出し、データカタログとして保存できます。

そして、最終的にデータの抽出・変換・書込を行うジョブ機能も用意されています。

aws glueに監視が必要な理由

aws glueを利用すると、データの抽出や変換、書込作業を自動化できます。各作業をスケジュール化しつつ、オンデマンドで実行することも可能です。作業を自動化してしまうと、どのような動きをしているのか、パフォーマンスがどうなのかは見えにくくなる傾向が見受けられます。

そこで必要となるのが、監視です。大量のデータを扱うことが予想されているawsでは、データが少ないときに設定したジョブが、データが増えていくにつれて、現状に合わなくなる可能性があります。awsのサービスは、扱うデータ量や作業量などに応じて、従量制で料金が発生するため、パフォーマンスが悪いと費用負担が大きくなります。

aws glueの監視にも料金が発生しますが、ビジネススピードを維持し、コストパフォーマンスを高くするには、監視が必須といえます。aws glueの監視は通常作業とは異なる知識や労力が必要ですが、aws glueには問題発生時に報告を上げたり、必要なアクションを自動で起こすツールが用意されているので、活用することでビジネスに資する監視ができるでしょう。

合わせて読む:awsでのプロセス監視はなぜ必要か?利用するメリットや料金も紹介

aws glueでの監視の方法

aws glueでは、監視を自動化できるモニタリングツールを使用するのが一般的です。awsには、データ変更などがあったときなどにイベントとして通知する「Amazon CloudWatch Events」というアプリケーションがありますが、イベント情報をモニタリングツールで登用して監視できます。

さらに、「Amazon CloudWatch Logs」を使用すると、サーバーやログイン情報なども監視可能です。監視の方法ですが、ある一定の数やレベルを閾値として設定しておき、閾値を超えた場合に自動的に通知するやり方を採用できるでしょう。

aws glueで監視を行う際は、イベントをログファイルに記録しておきます。このことによって、そのイベントがいつ、だれによって発生したか、どこから利用されたのか、把握できます。それらの情報を蓄積し分析すると、運用コストをつかみ、必要性に応じてアクセス制限をかけることも可能になります。

aws glueの監視のコツ

aws glueでは、データの抽出・変換・書込の前段階でクロールという作業を行い、保存されている各データベースの特性に関する情報収集を行います。クロールという言葉には、ハイハイする、這いまわるという意味があります。

クロールは、データベースをくまなく見て回る作業で、作業量としては比較的大きなものとなるケースが多いようです。クロールするデータをパターン化したうえで、クロールの対象となる監視を最小限にし、定期的にログソースを削除すると、本作業の処理速度を落とさずに、必要な監視を行えるに違いありません。

また、監視作業が失敗したからといって、原因追及をしないまま、再試行しないようにも注意します。作業量が増えるとコスト増加につながるため、必要最低限の監視にとどめるのがポイントです。

aws glueの特性を理解して監視を行う

aws glueは、awsの各サービスと連携し、データの抽出・変換・書込を実行するとともに、分析を行うのに優れたツールです。

aws glueで行う一連の作業は自動化できますが、そうすることで作業の効率性が見えにくくなるため、監視は必須です。データ変更や、サーバー・ログイン情報などのイベントログを活用し、監視対象を絞り込むと、コストパフォーマンスを最適化できます。

合わせて読む:awsの監視サービスAmazon CloudWatch(クラウドウォッチ)でメール通知を設定するには?

参考サイト『CloudCREW』 … https://managed.gmocloud.com/managed/