実際のデータでオープンデータレイクを構築して期待の結果が出るか検証します

オープンデータレイクとは

当社のオープンデータレイクは、一般的なデータレイクとは違い非構造化データを対象としたリポジトリです。既存システムの構造化データであっても非構造化データとして保存するため、データ分析基盤、データ・ドリブンシステムの元データ、組織横断型の新しいシステムにおける基幹データベース、企業内にある統合データを活用した新しいサービスなどに役立てることができます。

当社のオープンデータレイクでできないこと

当社のオープンデータレイクは、NoSQL分野では事実上標準のMongoDBを活用していますので、秒単位でのデータの追加・削除・更新が発生するトランザクショナルな処理は得意ではありません。一方で、数分単位のデータ追加やアドホックなデータ処理は非常に得意です。従ってオープンデータレイクはクリティカルなトランザクションシステムには向いていません。

データレイクが必要な理由

RDBMSが使われるようになって約40年が経過しています。テーブル・行・列やSQL、テーブル間の関係性をベースにしたRDBMSは非常に多くの企業・団体で使われデータベースの事実上標準なアーキテクチャーですが、昨今は、WebサービスやIoTなどの様々なデータ形式がありデータ量も飛躍的に増大しており、一言で言えば「データは多様化」してます。多様化したデータ形式であっても積極的に活用していかなければ、市場競争に生き残れません。
RDBMSはデータの一貫性を保つために厳密なスキーマ定義が必要になり、多様化するデータへの対応も簡単ではなくなりつつあります。当社のオープンデータレイクは拡張性においても水平分散が得意なNoSQL(MongoDB)を活用しているためデータの種類やデータ量が増加しても簡単に対応できます。

お客様のビジネスは、

安定安泰したビジネスですか?
それとも変化が激しい市場環境の中でのビジネスですか?

POCの実施プロセスのモデル

当社では、多種多様なデータをJSONに変換しオープンデータレイクにデータ投入を行い、データマート経由でのビジネスインテリジェンスツールやWebアプリケーションからアクセスできる環境を構築します。
基本的なPOCプログラムを98万円からご用意していますのでお気軽にご相談ください。

データレイクとデータウェアハウスとの違い

最初に、RDBは、データの追加・更新を頻繁に行う処理に適していますが、DWHは適していません。逆にデータの統合や集計は、RDBよりもDWHが適していると言えます。
つまり、DWHはRDBの苦手な部分を解決するデータ分析に最適化されたデータベースだと言えます。
それでは、データレイクなど不要ではないか?という話になりがちですが、実際にはデータレイクもDWHも必要なのです。なぜならアーキテクチャが違うからです。
DWHもRDBと同様でデータ構造が明確で、SQLクエリが高速になるように最適化されます。

一方、当社のオープンデータレイクは、データ構造が明確ではありません。データ構造やデータ定義を明確に定義せずに保存することができます。つまり活用用途を明確に定義しなくてもとりあえずデータを保存することができます。あえて明確に定義せずに保存することで、様々な方法でのデータ分析ができたり、データドリブンシステムを構築したり、複数DBにまたがったデータをベースにしたアプリケーションの開発が容易になります。

オープンデータレイクの価値

2、3名の人から得た情報による分析・意思決定より、多くの人から得た情報による分析・意思決定の方が信用度も高く価値があります。これと同様で、従来の独立したシステムから得られるデータよりも、複数システムを統合して得られるデータ、IoTや第三者のオープンデータなどから得られるデータを統合した分析・意思決定の方が信用度も高く価値があります。データレイクの価値は、様々なビジネスに新しい価値を見出すことです

オープンデータレイクで価値を創り出す例

本当のCRM

複数の事業や複数のサービスを同時に運営している企業は多いと思います。複数のイベントを開催している企業が複数イベントに参加した同一人物を同定することすらできていない企業も多いと思います。
データレイクは、複数のデータソースを統合して、特定個人のインターフェースを一本化して、クロスセリングやアップセリング、特別サービスの提供、ロイヤルティ向上施策などを取ることで、顧客価値を最大化できます。

新しいデータへの対応

IoTと言わなくても実は様々な場面でデータは発生しています。街中のカメラや温度湿度計、工場のセンサーなど実に多くのデータが発生していますが、その多くは価値が見出されることなく消去されます。そのようなデータを消去せずに蓄積し、全く違うデータと分析することで、チョコレートが売れる時期、アイスクリームが売れる時期、冬服から春服に変わるタイミングで発生する消費トレンドなどがわかるかもしれません。これまでは、データ蓄積費用が安くありませんでしたが、現状はデータ蓄積費用はそれほど高くありません。新しい多様なデータも一旦はオープンデータレイクに蓄積して、新しいビジネスインサイトに備えられます。

データドリブンシステムの開発

当社は「風が吹けば桶屋が儲かる」と呼びますが、どこにどのような風がいつ吹くかが兆候でもわかれば、いつどのくらいの桶を作って店頭に並べれば良いのかがわかるはずです。そのような風の兆候はデータレイクの中から見出すことができます。見出すことができれば、あとは風の状態をモニタリングすれば次の活動を予め設計して設定することができます。

生産性の向上

生産性とは、投入した資源(ヒトモノカネ)から得られる成果の量です。生産性が上がるとは、同じ業務が半分の時間でできるとか、同じ時間で倍の業務ができるというようなことです。つまり、投入した資源と得られた成果をデータで可視化できれば、生産性向上に役立てられます。
例えば、講演資料を作成するためにPowerPointを起動している時間をデータ取得し、その講演資料のために作成した新規スライド枚数、あるいは講演の価値と