野球データ分析、予測競技会「ハッカソン」に潜入

データハッカソンのエンジニアリング部門の課題

野球のデータを扱う競技会「ハッカソン」に潜入した。パシフィックリーグマーケティング(PLM)と人材派遣を主な業務とするパーソルホールディングスは10月6、7日、都内で「ベースボール データハッカソン」を開催。参加者は実在するプロ球団の顧客データを使い、来場者を予測する精度、ビジネスモデルの提案を競った。米大リーグでは金融界出身のデータ専門家がフロント入りしている。大きなうねりとなり、日本球界でも主流となる可能性を感じさせた。【取材、構成=斎藤直樹】

ハッカソンとは、パソコンの技術などを使い規定時間内に課題を解決したり、開発を行うコンテストだ。記者は2年前に巨人が参画した「ジャイアンツハッカソン」で3位入賞した経験がある。報知新聞の田中孝憲記者(38)時事通信の川上貴之氏(33)らとチームを結成。体験取材した。

野球記者の私以外は、IT教室の講師を務める猛者だ。東京・渋谷のコワーキングスペース(共同作業所)に、92チームから書類選考を通過した16チーム、32人が集結した。全員男性で、20~30代の会社員が中心。学生も数人いた。

競争は2部門あった。ある球団の14万人以上のファンクラブ会員が、主催43~45試合目を観戦するかどうかを1人1人予想する「エンジニアリング部門」と、データを基に顧客情報の分析、提案をする「コンサルティング部門」。エンジニア部門にエントリーした。

受け取ったデータは詳細だった。会員が、1試合ごとに球場に足を運んだか否か。電子商取引(EC)でのグッズなどの購入金額。ファンクラブの継続加入年数などが示された。また、試合中の選手の1打席ごとの詳細データも示された。

これらを組み合わせ「クラスター分析」(注1)という統計処理を施し、14万人超の1人ずつについて行動を予測した。短時間で大量データを処理するため、ソフトは主にエクセルではなく「R」「パイソン」(注2、3)を使用した。問題の難易度が高過ぎ、途中で半分の人数について正解が公開され、分析のヒントとなった。

2日間、合計で約13時間の分析を終え、エンジニア部門は金融業に勤務する20代後半の会社員が優勝した。正答率は約96・9%。14万人×3試合=42万のうち、約40万6980件を正確に予測した。

1日目にはコンサル部門に参加を試みており、2日目に急きょ部門を変更し「意外でした。時間がなかったので分析をシンプルにした。対戦相手や先発投手を試して精度が上がった」。九州大大学院修了。相手にお金を貸すかどうかのリスク管理が仕事で、統計処理のプロだ。高校時代は野球部に所属し、野球の仕事には「興味がある」。私たちは10位だった。

コンサル部門は、私たちとは別の報道機関に勤務する20代と30代の2人組が最優秀賞に輝いた。「ようこそ、おっさん」と題したスライドで、20代後半で男性会員が減少する現状を分析。おじさん世代になる前に、ファンクラブに取り込むことを提案した。30代の記者は「ストーリーの作り方で飯を食っている。見出しを取ったら勝ち。データをグラフィックで見せる。いくら原稿をうまく書いても、それだけじゃ読んでもらえない時代」と活字媒体の課題をズバリと指摘した。

大量データから統計学を利用した未来の予測は、金融界の潮流。メジャーにも波及している。今回のハッカソンは、日本の複数球団も視察に訪れた。既に数学者を雇用しているチームもある。今回の参加者から、未来のGMが現れても不思議はない。

(注1)クラスター分析 「クラスター」は「房」や「集団」という意味。大量なデータから同じ傾向を持つ集団に分類する。

(注2)R 無料で使える統計ソフト。大量のデータ処理を短時間で行うのに適している。

(注3)パイソン プログラミング言語の1つ。計算などの命令を簡単に下せる特長があり、人気が上昇中。

◆ハッカソン 「ハック」と「マラソン」を合わせた造語。短期、集中的に共同作業で技術開発や問題解決を競い合うイベント。組織の壁を越え、優れたアイデアを新しいサービスへと取り込む手法。00年前後に米国で始まり、IT業界では一般的なイベント。