コンバージョン率の推定範囲を把握しておく


* 正規分布で近似できるのは、np>5 だそうなので、100回施行で5回コンバージョンが想定されるくらいから、正規表現のイメージ(偏差*2で95%範囲)を持てるという事。でいいと思う、、、100回で2%だと、np<5なので、より裾野が広いイメージ?というか、コンバージョン数が0, 1, 2, 3, 4, 5, 6 くらいまでをそれぞれ計算すれば、いいと思います。 一般的には、F分布(謎)を使うようです。

————————————————————————————————————————————-

アクセス解析はなんですか? と聞かれた時に、よくある答えは、コンバージョンレートを計測し、向上策を考える事です。 というのはよくある答えですし、実際、サイトの数字を見るときは、まず、コンバージョンレートを見るようにしてます。

それで、これとこれのコンバージョンレートが違いますね。という話になると思います。比較の対象は、期間の比較であったり、キーワード、メディア、ランディングページの違いだったりすると思います。

どれくらい数字が違えば、認識・行動に移れるのか?

イメージから行動に移るには、数字の差が ”たまたま” なのか、”構造的” なのかを把握しないといけません。上の表は、標準偏差が ”1 or 2”の範囲で、どれくらいかを示したものです。正規分布を仮定しているので、この上下の範囲に64%が入る事になります。2の範囲で95%です。

意思決定的には、8割方の感覚でいけばいいと思います。また、コンバージョンレートの比較といっても、あくまで、それぞれのセッションを平等に扱って考えているわけで、選んだセッションに偏りがあると考える方が妥当かもしれません。 その場合は、因子分析に移ればいいのだろうか??? だれか、手順書を書いて欲しい。

数字を見る

WS000002

閲覧開始ページ別のコンバージョンレートです。タブの名前は、遊びで創ったもので、他のだれかがこの数字を担当してるわけではありません。

今回は、5ページ以上見るをコンバージョンとしています。ここでは、平均ページビューがだせないのですが、サイト全体の平均ページビューは、2.3くらいです。

上の表を使ってみると、トップページのコンバージョン率は、10.47%ですが、7-13%くらいまでは、振れを見といた方が良さそうです。 近い数字で、businessのページは、9.41%ですが、開始数が85なので、5-13%くらいの範囲を想定しないといけないです。what_areのページも、6.09%ですが、3-10%くらい違うと、、、

まあ、2シグマで見てたら、違いが分かる人にはなれそうにないのですが、閲覧開始数がこの10倍あれば、偏差はルート10で、3分の1くらいになるので、7-13が、9-11くらいの範囲になって、違いが言えるようになると思います。このサイトは、一日のアクセスが30-50なので、この10倍くらいのサイトなら、それなりに2,3パーセントの違いに言及できるようになると思います。

google analtyicsでは、インテリジェンスで統計数字が出てきて、アラートを出してくれるのですが、指標を時系列分析やら、誤差項やらを入れて、分析してそうな気がしますが、たぶん、説明を受けてもわかりそうにないです。

とりあえず、コンバージョンしたかどうかの、二者択一についての数字の分布を想定して、数字の振れをイメージしておきましょうという話でした。 間違っていたら、コメントください。 統計の話は、理解・非理解の二者択一なので、コメントにうまく返答出来ないかもしれませんが。

大事なのは、アクションなのですが、数字に統計的な違いがあるといえば、アクションさせる力になると思います。

GAのデータ理解。SQLとのアナロジー

妄想エントリーです。非常に観念的な話で実践的ではないですが、それ故に有用(分かった気になれる)になることもあり得る。

“突っ込まれbility” が発揮出来るエントリーになるといいのですが。

アナロジーは、

  • GAのディメンジョンは、SQLでいうところのgroup by。
  • GAの指標の方は、SQLでいうところの selectの集計関数を使った結果。

僕のSQLの理解は怪しいので、このアナロジーは間違ってるかもしれないけど、こういうイメージで、昔、ピンときた。sqlの経験は、はっきりいうと、sqliteで株価データをいじってテクニカル指標を出してたくらいしかないので、sqlを語ってはいけないのかもしれないけど。

で、前提としては、GAのデータ集合はセッションをデータ行として並べてるイメージです。

WS000001

GAのレポートは、集約関数が常に使われているイメージ

GAのレポートを見るときは、常にSQLの集約関数の結果がでてるイメージで行く。

select count(*) from ga-table group-by (traffic|user|content)

こんな感じで、トラフィックやら、ユーザー(新規・リピーターとか)、ページでのセッション数を見てる。

アドバンスセグメントなんかは、

  • ディメンジョンでセグメントする場合は、where句が付く感じ。
  • 指標でセグメントする場合は、having句で絞る感じでしょうか?

カスタムレポートは、

  • select部分に、いろんな集計関数(平均ページビューならaverage, 滞在時間ならsum, 他は大体 countとか。
  • group byにディメンジョン。サブディメンジョンにはサブクエリー?違う気がしてきたけど、、

終わり。

突っ込むところ満載なのかもしれないけど、inspiredされる人が居るかもしれないので、エントリー。

しかし、どうやって、こんなに早いデータ表示をしてるんだろうとは思う。googleといえば、big tableなわけでRDBSでない。RDBSならこんなスピードはでない? 知らないし、理解できないけど。 このデータ処理のレスポンスタイムはすごい。

GWOとGAをくっつける

併用についてのGoogle の公式のヘルプ記事がありますので、まずは、そちらをご覧ください。

GWOは、Google Website Optimzer。GAは、Google Analytics。ともに、Googleが提供するウェブサイトの効果計測の為のツールです。この二つのツールの使用は、機能として非常に似ているので、両者の良い部分を併せてみようと言うのが、今回のエントリーです。ちなみに、GWOで何をOptimize(最適化)するのかというと、コンバージョンレートを最適化(ためのテスト)します。A/Bテスト、もしくは多変量テストで数字を見比べて、適するテストを選択するわけです。

まず、両者の比較から入ります。

GAの方が分析用の機能は豊富

GWOは、ユーザー単位(cookie)でのコンバージョンを測るという機能を提供するのですが、同じことは、GAでもできます。カスタム変数をユーザーレベルで設定すれば、そのユーザーグループでのコンバージョン率も測れます。

さらにGAは、Analyticsとウタッテルわけですので、他の指標もグループ別に分析できるわけです。

ユーザーグループ別の、滞在時間、テストページ以外の閲覧ページなどが可能です。さらに、trackEventを発行していけば、javascriptが補足するイベントをどんどん計測できるわけです。trackEventは、4つのパラメーターをとれますので、その中にsetTimeout, setIntervalなどで時間の値を組み込んでもいいです。そして、これらを、ユーザーグループ別に計測できるわけです。また、フィルター機能で自分のアクセスを除外したりするのも簡単です。

しかし、GA単独で事が足りるか? というと、そうも行かないかもしれません。

GWO側の優位点は?

実は、GWOにあまり詳しくないので、自信がないのですが、GWOの利点は、

  • テストの実装が簡単
    • 基本は、オリジナルページにcontrol scriptを埋めてやると、そこでテストページの振り分けをしてくれる。GAは、自分で作る必要がある。
    • 特に、多変量テストは、自前で作ったり、管理するのは大変だと想像します。(やったことない、、)。Follow-up Experimentという仕組みもあるようです。よくわからないけど、多数の組み合わせの中の勝ち残りと、オリジナルで、最終確認テストができるという意味?
  • 結果の解釈に説得感がある
  • なんとなく安心
    • GAで、cookieに依って違うページを見せるのは少し気持ちが悪いです。検索エンジンに良く思われないのではないか?と思ってしまいます。GWOだからOKという理屈はないですが、なんとなく安心ではあります。

とGAとGWOの利点を見ました。以後、両者の利点をいいとこ取りに挑戦です。

手順

GWOでテストを作り、そのGWOのcookie値をGA側のカスタム変数に入れて、GAでも分析できるようにします。GWOには、combination関数というのがあって、テストの振り分け判別用の値が取れるみたいですが、オリジナルページ(control script内)でしかとれないようですMVTを行う場合には、ページ振り分けがあるわけではないので問題ない。 ですので、関数を使わずにcookieを直接読んで、値を設定することにします。

具体例は省略します(*このサイトのトップページが、現在テスト対象になってます。そのうち外します)。

GAと同じです。ウェブプロパティIDが違うので、別々にキチンと設定してやればいいはずです。

今、WEBで検索していて見つけたのですが、Poor man’s GWO/Analytics Integration のやり方がいいです。いろいろ改善点があるのですが、カスタム変数に入れるのではなく、ユーザー定義に入れておけば、セカンダリーディメンジョンで見られるので、アドバンスフィルターで検索するなりして、手早くレポートで確認ができると思います。他にも、改善点がいろいろとあるようです。”いつかやる”にしておきます。

レポート画面

ユーザー定義ではなく、カスタム変数に入れてしまったので、レポート画面が面倒くさいですが、カスタムレポートで見たい指標を並べておいて、ゴールのページを通過したセッションをアドバンスセグメントで、括り出しておく形ですがいいです。ユーザー定義を使った場合は、ゴールのページで、ユーザー定義をみればいいと思います。

WS000002

GAでは、コンバージョン以外の指標を見られるのが、アドバンテージ。

GWOの方は、

WS000003

GWOでは、統計的な判断をしてくれたレポートにしてくれるのが、アドバンテージ。

GAとユーザーの母数が違いますが、GAの方で当初設定ミスをしたせいだと思ってます。また、GWOの方はフィルターが使えないので、自分のアクセスを除外できないと思います。GWOとGAで完全の統合してしまえばいいとも思いますが、冒頭で挙げたGWOの利点とバッティングするのかもしれません。

*) wordpressでテストを作る時は、ページのテンプレートを作って、そこにコントロールスクリプトを入れてページを作る。そして、もう一つの方は、別にテンプレートを用意する形になるのかもしれません。最初、両方にコントロールスクリプトが入っていて、ページがリダイレクトループみたいになってしまいました。CMSを使っていると、普段は便利なのですが、こういう時は、”調べるコスト”が発生しますね。 同時に”設定ミスリスク”もある所が怖いです。