h2o-3: スケーラブルな機械学習と自動モデル構築のための分散インメモリプラットフォーム

h2o-3: スケーラブルな機械学習と自動モデル構築のための分散インメモリプラットフォーム

何を解決するか

H2Oは、機械学習のための分散型、スケーラブル、かつインメモリのプラットフォームを提供し、ユーザーがマシンクラスタ全体で大規模なデータセットと複雑なモデルを扱えるようにします。さまざまなインターフェースと自動化ツールを通じて、機械学習モデルの構築、トレーニング、およびデプロイのプロセスを簡素化します。

仕組み

H2Oは、HadoopやSparkのようなビッグデータ技術と統合されるインメモリプラットフォームとして動作します。R、Python、Scala、Java、JSON、およびFlowと呼ばれるウェブベースのノートブックを含む、複数のクライアントインターフェースをサポートしています。このプラットフォームは、幅広いアルゴリズム(GLM、Random Forests、Deep Neural Networksなど)を実装しており、完全自動機械学習のためのH2O AutoMLを含んでいます。モデルは、スコアリングのために保存およびロードしたり、高性能な本番環境でのスコアリングのためにPOJOまたはMOJO形式にエクスポートしたりできます。

対象ユーザー

大規模なデータセットに対してスケーラブルな機械学習を実行する必要があるデータサイエンティストや開発者、および、分散コンピューティングの力を活用しながらPythonやRのような使い慣れた言語を使用することを好む人々。

ハイライト

  • 分散スケーラビリティ: HadoopやSparkと連携する、インメモリかつ分散型の機械学習向けに構築されています。
  • 幅広いアルゴリズムのサポート: GLM、XGBoost、Random Forests、Deep Neural Networks、Naive Bayes、およびその他を含みます。
  • AutoML: モデルの選択とチューニングを効率化するための、完全自動機械学習アルゴリズムを搭載しています。
  • 本番環境対応のエクスポート: モデルは、本番環境での極めて高速なスコアリングのために、POJOまたはMOJO形式にエクスポートできます。
  • マルチ言語サポート: Python、R、Java、Scala、およびウェブインターフェースを介してアクセス可能です。

Sources