このすみノート

Webエンジニアが技術や趣味を書くブログです。

10万のサークル名を収集して傾向を可視化してみました - ミジンコ組さんの努力の結晶が詰まった本

みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。

f:id:konosumi:20181020095747j:plain

控えめに言ってすごい本です。

本書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。

まさに、努力の結晶な本です。

daphnia.booth.pm

感想を書いていきます。

なぜ10万のサークル名なのか?

10万という数字は、仮説を元に導き出された数字です。

  • 年間の土日祝日の数: 120
  • 土日祝日に開催されるイベントの数: 10〜40
  • 小規模、中規模、大規模、超大規模なイベントの割合
  • 規模別のサークル数
  • イベントに重複して参加するサークルの数

イベントの規模やサークル数の割合は、あくまで推定の数値を基にしてはいますが、これらを含めた種々の計算によって、傾向を可視化するために必要なサークル数を割り出しています。

そして、最終的に10万のサークル数があれば良いという数値が、弾き出されます。数学がそれほど得意でない私にとっては「おお、そうやって導き出すのか!」という気分です。

ノイズとの戦い

単純にサークルで検索をしてしまうと、大学のサークル活動がたくさんヒットします。しかし、本書が対象としているのは、同人イベントのサークルです。

そこで「サークル名 スペース」や「サークル名 配置」などの、同人イベントに関する第二ワードを指定します。そうすることによって、大学生サークルのノイズを低減することができます。

正規表現によるサークル名の収集

本書は「TwitterAPIを使用せずにツイートからサークル名を抽出する」ため、データは各ツイートのHTMLです。スクレイピングやゴミデータのカットを経て、最終的にサークル名を取り出します。

サークル名の取り出しは、正規表現で頑張ります。読んだ限りでは、配置の決定や、サークルの宣伝やお知らせツイートからの抽出がメインみたいです。

そしてなんと、13万ものサークル名が集まったそうです。凄い!

サークル名の傾向について

詳しくは本書を読んで欲しいのですが、なかなか面白い話がたくさんありました。

  • 英語が含まれているサークルは、サークル名が長くなる傾向が強い
  • 漢字は一文字に意味を凝縮できるから、漢字のみサークルは文字数が少ない
  • 空に関連する漢字は、サークル名で使われやすい
  • ...etc

あまりたくさん書いてしまうと、さすがにネタバレになってしまいます。この辺りで控えておきます。サークル名の文字に着目して、様々な角度から統計や解析をしてみた本です。

とても読んでいて面白かったです。

f:id:konosumi:20181014110846j:plain

MeCabによるサークル名の形態素解析

本書では、サークル名をMeCabによって形態素解析しています。形態素解析とは、以下のように日本語を言葉の単位で区切る行為です。

  • 今朝何食べた?
  • 今朝 / 何 / 食べ / た / ?

これによって、サークル名を構成する言葉が少なくて、「サークル名がシンプルなのかどうか?」といった判定を行なうことができます。

実は私も、MeCabによる形態素解析にチャレンジしたことがあります。 SEO対策のために、商品説明文を形態素解析して、主要キーワードを抜き出し「meta keyword」に設定しました。

現在は「meta keyword」は使われていないと言われていますので、不要になりましたが。

自分のサークル名を考え直してみる

私が運営している個人サークルは「このすみ堂」と言います。ハンドルネームが「このすみ」ですので、それに「堂」を加えたシンプルなサークル名です。

ちなみに「堂」という漢字は、サークル名で出現頻度が第三位の漢字です。

読んでいて思ったのですが、20文字超えのサークルもあるくらい、サークル名は多種多様化しています。私のサークルは、特別なこだわりがなく安易に付けたサークル名ですので、少し変えたくなってきました(笑)。

さいごに

同人イベントのサークル名は、大学のようなジャンルが決まったサークル(〇〇同好会、〇〇部・・・)と比べて、とても個性が発揮される分野です。

「奥ゆかしきサークル名」のくだりは、思わず笑ってしまいました。小ネタも満載で楽しい本です。

daphnia.booth.pm