みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。
控えめに言ってすごい本です。
本書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。
まさに、努力の結晶な本です。
感想を書いていきます。
なぜ10万のサークル名なのか?
10万という数字は、仮説を元に導き出された数字です。
- 年間の土日祝日の数: 120
- 土日祝日に開催されるイベントの数: 10〜40
- 小規模、中規模、大規模、超大規模なイベントの割合
- 規模別のサークル数
- イベントに重複して参加するサークルの数
イベントの規模やサークル数の割合は、あくまで推定の数値を基にしてはいますが、これらを含めた種々の計算によって、傾向を可視化するために必要なサークル数を割り出しています。
そして、最終的に10万のサークル数があれば良いという数値が、弾き出されます。数学がそれほど得意でない私にとっては「おお、そうやって導き出すのか!」という気分です。
ノイズとの戦い
単純にサークルで検索をしてしまうと、大学のサークル活動がたくさんヒットします。しかし、本書が対象としているのは、同人イベントのサークルです。
そこで「サークル名 スペース」や「サークル名 配置」などの、同人イベントに関する第二ワードを指定します。そうすることによって、大学生サークルのノイズを低減することができます。
正規表現によるサークル名の収集
本書は「TwitterAPIを使用せずにツイートからサークル名を抽出する」ため、データは各ツイートのHTMLです。スクレイピングやゴミデータのカットを経て、最終的にサークル名を取り出します。
サークル名の取り出しは、正規表現で頑張ります。読んだ限りでは、配置の決定や、サークルの宣伝やお知らせツイートからの抽出がメインみたいです。
そしてなんと、13万ものサークル名が集まったそうです。凄い!
サークル名の傾向について
詳しくは本書を読んで欲しいのですが、なかなか面白い話がたくさんありました。
- 英語が含まれているサークルは、サークル名が長くなる傾向が強い
- 漢字は一文字に意味を凝縮できるから、漢字のみサークルは文字数が少ない
- 空に関連する漢字は、サークル名で使われやすい
- ...etc
あまりたくさん書いてしまうと、さすがにネタバレになってしまいます。この辺りで控えておきます。サークル名の文字に着目して、様々な角度から統計や解析をしてみた本です。
とても読んでいて面白かったです。
MeCabによるサークル名の形態素解析
本書では、サークル名をMeCabによって形態素解析しています。形態素解析とは、以下のように日本語を言葉の単位で区切る行為です。
- 今朝何食べた?
- 今朝 / 何 / 食べ / た / ?
これによって、サークル名を構成する言葉が少なくて、「サークル名がシンプルなのかどうか?」といった判定を行なうことができます。
実は私も、MeCabによる形態素解析にチャレンジしたことがあります。 SEO対策のために、商品説明文を形態素解析して、主要キーワードを抜き出し「meta keyword」に設定しました。
現在は「meta keyword」は使われていないと言われていますので、不要になりましたが。
自分のサークル名を考え直してみる
私が運営している個人サークルは「このすみ堂」と言います。ハンドルネームが「このすみ」ですので、それに「堂」を加えたシンプルなサークル名です。
ちなみに「堂」という漢字は、サークル名で出現頻度が第三位の漢字です。
読んでいて思ったのですが、20文字超えのサークルもあるくらい、サークル名は多種多様化しています。私のサークルは、特別なこだわりがなく安易に付けたサークル名ですので、少し変えたくなってきました(笑)。
さいごに
同人イベントのサークル名は、大学のようなジャンルが決まったサークル(〇〇同好会、〇〇部・・・)と比べて、とても個性が発揮される分野です。
「奥ゆかしきサークル名」のくだりは、思わず笑ってしまいました。小ネタも満載で楽しい本です。