Google AnaltyicsでのABテスト

google_analytics_abtest_with_custom_reporting

ABテストのようなものを行ったので、メモを残します。

テストのようなと言う理由は、このサイトは、wordpress(CMS)で、アクセス数が少ないという条件なので、

  • サイドバーの特定のリンクが押されたのをコンバージョンとした。
  • CMSのサイドバーなので、どんなページでも、そのリンクが出る。

としたからです。同一条件とは言えないです。ランダムに振り分けた二つの群の数値、という説明が適当です。

ABテストを行う前に

必要性を考えましょう。アドバンスセグメントで十分かも知れません。

また、Google Web Site Optimiserで、ABテストそのものが無料で提供してます。

準備

ただ、必要性の検討も時間がかかるので、とりあえずやってみました。前のエントリーに書きましたが、http://www.rowtheboat.com/archives/39 (AB Testing with Google Analytics)が参考になります。A,Bに振り分けて、カスタムレポートで見る方法です。なので、手順は、

  • cookieに該当する値がなければ、PHPで乱数を振る。あれば、そのまま。これで、AかBを決める。(ユーザ固定方式)
  • 設定した値で、sytlesheetを読み込み、Google Analyticsのカスタム変数を設定する。
  • pageTracker._trackPageview()を送る。

ちなみに、AとBの違いは、リンクの色が赤いかどうかです。今作ってる、WikiへのリンクをAの方は赤くしただけです。

WS000029

最後に、一応コードを貼り付けます。(PHPは、hello worldくらいしか書いた事なかったので、変なコードかも)

レポート画面

冒頭の絵が出来上がりの図です。そこまで、至る過程としては、

WS000025WS000026

カスタムレポートのディメンジョンで、カスタム変数のキー > 値とし、

アドバンスセグメントで、ゴールのURLがページとなってるものをセグメントします。

WS000028

カスタム変数のキー1には、他の名前のものが出る人もあると思います。

該当するABTest20100120と選ぶと、冒頭の図になります。

考察

こんな感じでも、それなりに良い感じだと思います。コンバージョンが3つだけですが、レポートで、数字を解釈できると思います。

ただ、A/Bテストは差がでるものでやるべきだと思いました。あと、コンバージョンが上がるゴールにしないと、いつまで経っても有意な数字が得られません。

しかし、今回の複数に振り分けた群での指標を比較は、発見があるかもしれないです。なぜなら、普段のアクセス解析では、こういう行動をしたユーザは何を考えているのだろう? と分析します。分析した人は、それを踏まえ条件を設定し、群に振り分けるます。こういうのは、実装としては心理的抵抗感が少なく、アクショナブルかなと思います。がちがちのABテストよりも楽?な感じがします。

付け足し

今回、カスタム変数をいじったのですが、ページレベルのカスタム変数を、コンバージョンページに割り当てておくべきだったかもしれません。そうすれば、レポート画面でもう少し簡単に結果が見れたかもしれません。さきほど、設定してみたので、また書きたいと思います。

コード

$GLOBALS["flg"] = mt_rand(1,2);
function init(){
  function f($value,$i){
    $a = split("=", $value);
    if(count($a) > 2){
      if($a[0]=="1" && $a[1]=="ABTest20100120"){
        $GLOBALS["flg"] = $a[2];
        return;
      }
    }
  }

  $s = h($_COOKIE['__utmv']);
  if($s){
    $ret = split("|",$s);
  }else{
    return;
  }
  if($ret && $ret[1]){
    $ret = split(",", $ret[1]);
  }else{
    return;
  }
  if(!$ret){$ret = array('');}
//echo $GLOBALS["flg"];
  array_walk($ret, 'f');
}
init();

この後に、$GLOBALSに合わせて、stylesheet読み込み、カスタム変数の設定などを行いました。

初心者丸出しかも知れませんが、指摘してもらえると有り難いです。

ABテストと統計数字(A smart bearのblogから)

カイ二乗値が4より上の組み合わせ(A,Bの回数)を緑色にしてる。
ちなみに、カイ二乗が自由度1で値が3の時、p値は0.92。4で0.97くらい?

僕を含めた大部分の人は統計が苦手。だって直感じゃだめだから。そこで、英語で書かれたblogで良い記事を見つけたので、紹介します。Adwordsを題材にしています。

http://blog.asmartbear.com/easy-statistics-for-adwords-ab-testing-and-hamsters.html(ハムスターの動画がかわいい)

* Google AnalyticsでABテストやりたい! という人は、Google Analyticsでのマルチカスタム変数を使ったA/Bテストの例があります。http://www.rowtheboat.com/archives/39 (AB Testing with Google Analytics)。参考として。

基本は、コインの裏表が出た回数が、どれくらい開けば、インチキと言っていいのかの話だと思います。ABに差があると。

数式は、http://blog.asmartbear.com/easy-statistics-for-adwords-ab-testing-and-hamsters.htmlの引用で、

Okay okay, we suck at math. So what’s the answer? Here’s the bit you’ve been waiting for:

The way you determine whether an A/B test shows a statistically significant difference is:

  1. Define N as “the number of trials.”
    For Hammy this is 8+4 = 12.
    For the AdWords example this is 32+19 = 51.
  2. Define D as “half the difference between the ‘winner’ and the ‘loser’.”
    For Hammy this is (8-4) ÷ 2 = 2.
    For AdWords this is (32-19) ÷ 2 = 6.5.
  3. The test result is statistically significant if D2 is bigger than N.
    For Hammy, D2 is 4, which is not bigger than 12, so it is not significant.
    For AdWords, D2 is 42.25, which is not bigger than 51, so it is not significant.

(For the mathematical justification, see the end of the post.)

AとBの回数を足したのがN。AとBの差を引いて半分にしたのがD。Dを二乗してD2。D2がNより大きくなれば、晴れてイカサマ(信頼度がある)と言っていい。adwordsなら、AとBで勝負が付いた!という話になる。

  • 条件はAとBのimpression回数が同じ(adwordsのデフォルトは、そうでなかったかも?)
  • Aのクリック回数がA,Bのクリック回数がBとして、
  • Nは、A+B。クリック総数。Dは(A-B)/2
  • 上の例だと、32と19という数字でも十分ではない。34対19までいけば十分イカサマ。

これで、終わり。34対19だと、差(D)が15/2=7.5なので、7*7=49, 8*8=64で、N=53を超えそうだなあ、、という感じです。

かけ算の九九で、ABテストの結果を判別する話でした。


ちなみに、この記事(http://www.fallinstar.org/2010/01/ab.html)での数字は、350/4963, 285/4953 ですね。

少し強引ですが、同じ回数の試行と考えるために、350, 286 とすると、

D=1024  > N=636 となり、

と晴れて有意に差があると言えます。仮に、350, 290でも、D:900 > N:640で、差(カイ二乗値が4超え)はあると言えます。

信頼度がどれくらいかみておきましょう。http://stattrek.com/Tables/ChiSquare.aspx

ここでみると、自由度1のカイ二乗値が6.15の場合は、98-99%の有意水準になります。逆に言うと、1ー2%くらいはこういう結果になり得るみたいなので、100回同じページでのABテストをやっても、1,2回くらいこういう結果がありそう、とも言えそうです。

とりあえず、テストを打ち切る場合には、信頼度はこれくらいだったとメモを残しておけば良いのだと思います。何かの御札になるかもしれません。


Q&A

でも、その記事が良いのは、その後のバックグランンドの説明と、コメントのやりとりが教育的な事。とても良い記事です。

詳しくは読んで頂くとして、 僕が理解したことは書いていきます。

インプレッション数は関係ないの?

(訂正: 同じインプレッション数という前提で) 関係ないです。クリックされなかったという事はA/Bの差に関する話には関連しません。今回は、AとBが同じ確率であるはずという前提で、Aがクリックされた数とBがクリックされた数を比較してるだけの話です。

カイ二乗値の出し方

我慢して数字を飲み込みましょう。

  • 出す数字は、(実際の結果の数字 – そうであるべき数字)を二乗して、回数で割ったものです。
  • 今回は、その数字をAとBについてやるので、AとBで出た数字を足し上げて、試行回数で割ります。
  • それぞれの試行期待回数が、N/2になるのは、A/Bテストだからですね。100回コインを投げたらN/2の50回になって欲しいですよね。

数式も引用させてもらいましょう、(nと小文字になってますが、見易いので、僕の文では大文字のNにしてます、総試行回数と結果回数がこっちゃになりますが、気になる人にはごめんなさいです)

分数の計算をして、

  • (A*A + B*B – AN – BN + N*N/2)/(N/2) で、
  • Dは、(A-B)の差を半分にしたものだったので、2D=(A-B)で、
  • N=A+Bなので、N*N=A*A+2AB+B*Bとして、
  • ガチャガチャして、
  • 4D*D/Nです。 カイ二乗の値が。

それで、自由度1(A/Bの二つを比べるので1)のカイ二乗値の表を引っ張りだす or Excelを使って(冒頭の図は、Google DocsにExcelからコピーしたもの)出します。このカイ二乗値(実際の値とあるべき値の差を取って、二乗して、割った値)は、大きくなればなるほど、あるべき値から離れていて、イカサマ具合が増す数字です。3.8までいくと、95%くらいは、、、、イカサマと言っていいです。A/Bが半々とは、とても信頼できないです。

以下、数字で感覚をつかみます。

カイ二乗値(自由度1)が6.6までいくと、99%あり得ない。

3.8とか6.6とかのカイ二乗値は、上でガチャガシャやって 4D*D/Nでした。Dは、1番最初にやった、とにかく、AとBの差を取って半分にしろ! と言って便宜的に決めた数字でしたね。D = (A-B)/2

4D*D/Nの計算値が、4くらいまで膨らめば(Dが大きくなる = 差が開く)、まあイカサマというか、あるべき数字からは外れてると考えると、4くらいまで来てる、4D*D/Nが、なので、4=4D*D/Nで、D*D = N ですね。

8くらいまで値が外れてる事になれば、4D*D/Nが8なので、   D*D = 2N ですね。(信頼区間の数字は限りなく100%でしょうが)

冒頭にやった 31対19でいくと、D=(31-19)/2=6, N=50で、 4でも 36と50,8だと 36と100で話にならないですね。

35対19でいくと、D=8,N=54で、 4(カイ二乗の値)だと、64と54で、イカサマラインをやっと超えました。

というわけで、あるべき数字からのズレを計算して、分布表から、これくらいズレてれば、OKという数字をみてみました。4という数字の信頼度はネットの分布表をみたら、96%でした。なので、差を取って、半分にして、二乗した値と、それぞれの回数を足したものを比較して、差を取った方が大きければ、会議で、こっちのがコンバージョンが取れるパターンといえますね。保険として、100回に4回くらいで、同じクオリティ(コンバージョンが取れる)でも、こういう結果は出ると言っておくべきかもしれません。

以下: ココらへんから怪しくなる(2013/04/08)

信頼度10%だと、カイ二乗値は2.7なので、概算で、回数の方を7掛けにして、比較しても良いかもしれません。31対19は、ちょうど2.7くらいになるので、9割方は、こっちで良い!と言える話になります。

ビジネスの算段は8割方OKでイケの話だと、カイ二乗値は1.6くらいなので、回数を4掛けでいいです。50回なら20ですね。30対20なら、((30-20)/2)^2は、25なので、8割方違うとなります。29対21になると、8割でもそうだと言えないです。

*あくまでも、二者択一で、お互いの結果の原因に関連が無い場合です。それでも29対21だと8割方と言えない、、、という話になります。普通は、お互いの結果の原因は出所が同じで、どの出所の量で結果が決まったりするので、その場合は別に考える事になります。この場合は、ユーザの偏りとかでしょうか?

冒頭のGoolge Docsのテーブル図は、ここらあたりをまとめたものです。

T分布の話

CTRの数字をT検定するのではだめなのか?という話ですが、adwords(AB)は二項分布だけど、確率小、回数大だからいけるとありますが、よくわからなくなったので、パス。だれか解説して下さい。

破産、ガケからの転落のメタファー

上で出した表ですが、有意ゾーンに入った瞬間にテストの打ち切りをすると、結果にバイアスがかかります。

メタファーとしては、崖から落ちる酔っぱらいの話がでてます。僕は、昔、相場の人だったので、破産確率の話と同じだと思いました。人の信頼みたいなのも、こういう感じでしょうか?数式は難しくて、分からないのでパスします。

a smart bearのblogでは、回数(コンバージョンの数)を予め決めておけ!という話になってますが、少なくとも、実際に判断に使う有意水準より、テスト期間中では、その水準を引き上げておくべきなのは確かでしょう。

サンプル数の話

5個以上はいる。統計的にそうらしいです。理由はわかりませんので、分かるように説明してくれる人がいたら嬉しいです。

テストは、現場の判断で切り上げる事は多いでしょうが、どれくらいの信頼度で、そのテストを切り上げたかをメモとして残せば、暗黙知から形式知への転換の可能性も残ると思います。

ユーザインサイトの話を聞いてきた。

アクセス解析イチシアチブのツール勉強会で、ユーザインサイトのアクセス解析ツールの話を聞いてきた。他の方からのとてもまとまったレポートはこちら

背景情報

以前のベンダーツールをまとめて紹介してもらうセミナーでも聞いたんだど、今回はより細かい話が聞けるのかなという期待はあった。

ユーザインサイトの特徴は、http://ui.userlocal.jp/functions/ に書いてある。

話は、画面を見ながらの機能解説という流れだった。解説した人は、ハンサムな営業担当の人と美人な開発担当の人だった。

導入実績は、大手の企業が多いのかな?導入数は聞けなかったような。

無料版の中の人は11万サイト。動く人は3万サイト。動く人の総計でのPVの伸びは勢いが付いてるらしい。導入サイト数が増えたのか、個々のサイトのPVが増えたのか、どっちもだろけど。

英語と中国語も提供してると。(サポートはメールといってたけど、中国語の場合は、どうしてるんだろう。書ける人がいるのか、外注してるのか)。コンサルではなく、ツールベンダーなのでいいのかも。

特徴(ユーザ属性、ヒートマップ)

ユーザ属性

ユーザ属性情報を自社で算出?していて、それを解析情報にくっつけて出して価値を創出してる。

データは、どっかから買ってるわけではないと。

無料の”なかの人”から集めた情報を属性情報の推計に使ってると。実際のテストで推計情報と実際の情報の差をみたら、年齢と性別で8-9割、7-8割当たっていたと。年収などは、ipを元にした会社情報から、公開されてる年収情報を当てて出しているみたい。ネット習熟度という属性もあった。はっきり言って、アクセス解析なんかより、属性算出のがおもいろいかも。でも、中見は当然ブラックボックス。導入企業には、もう少し情報があるのかなあ? パネル調査の情報とも違うし、この事業領域には、他の会社がいるのだろうか? 謎だ。

ヒートマップ(+マウスレプレイ)

海外だとclicktaleが有名なのか。

試しに両方とも入れてみた。(後でupdateして、絵を張る。張った。)

http://friendfeed-media.com/bfe437d5b94818bdad84cc35fb0714478316f97e
clicktaleの方は、アクセスの無いサイトに張ったので、データがたまらないけど、画面構成だけ。
http://friendfeed-media.com/35d61fba8edaecc13a197f15d4acec808d3f2913

ここでも、ユーザ属性が効いてくる。通常のアクセス解析は、自分のところへの訪問者のデータの中からしかユーザのカテゴライズ(参入元、ページ閲覧履歴)できないけど、ユーザインサイトには推計とは言え、データがあるので、企画担当の人とかには便利そう。仮に施策が当たれば、相当なアドバンテージになりそう。実際の例はわからないけど、導入実績があるのは営業がすごいか、実際に役立つかしかない。ヒートマップとユーザ属性でクロス分析ができるので、見てても、お腹いっぱいになってくる。これを見てすぐにデザイン変更とはいかないかもしれないけど、A/Bテストの案とかは、これを見てたら浮かんできそう。

他には、新機能でマウスの動きを見せてくれるものや、ユーザのアクセス状況のリアルタイムでの表示や、機能追加がどんどん進んでる印象。ツール自体のOEM提供も始めるようで、元気のある感じを受けた。海外展開もしてるし、ビジネスモデルはユニークだし。中国でも、なかのひとをやって、ユーザ属性を取れたらおもいしろそう。

ちょっと脱線

ヒートマップは、マウスの動きから、視線の動きを推計して表示するもの。たぶん。文章なら熟読。絵なら注目。attentionを計測することになる。将来は、瞳孔の開き具合とか、脳波の発生具合までいけば、おもしろいと思った。ユーザテストとかで、やってる会社もあるのだろうか?

僕がアクセス解析をやってるのは、究極的には、情報が頭の中で伝達されたかどうかが知りたいわけで、マウスでもキーボードでも、なんでも測れと思うけど、ユーザインサイトは、ユーザ属性も含め、興味深い情報を集めてると思う。(キーボードの情報を集めないのか?と聞いたら、キーロガーになると一笑に付された。clicktaleの方は取ってる

* 今年は、電子書籍の普及元年と言われているけど、サイト解析より、電子書籍の閲覧解析がしたい。電子書籍端末の値段が下がれば、教育関係からその手の端末がでてもおかしくない。まずは、閲覧解析ではなく、採点からはいるだろうけど。理解のフィードバックを機械的に得られれば、公文的なドリル学習も一世代、先に進める。また、速読関連にも役立ちそう。

妄想モード二、ハイッテシマッタ。

以上です。

Google Analyticsでのマウス位置からFunnelReportもどき

google analyticsでは、もちろんヒートマップなんて高機能なものはない。ただ、apiは充実してるので、頑張れば、データ自体は取れる。

下の図は、10秒間隔で、ページの高さで見たマウスの位置をデータとして送っていた時のデータ。動機は、時間別にマウス位置が下まで下がっていけば、読まれてる計れるかなと思ったこと。今は取ってないけど(今日2010/01/16から再開した)、長いランディングページとかの設定の以来とかあれば、計画を立てて計測したいと思っている。時系列でなくて、ポイントを設置して、そのポイントをいつ通過したかみたいな、マラソンのコース取りみたいなのをイメジしてる。

何はともあれ、データはこのページの10秒事でのマウス位置。イベントアクションが経過時間数。ラベルにページurl、値にマウス位置(ぺージ内

割合)。1番右が平均値。いつもの事ながら母数が少ないけど。アクションの値は文字列なので、数字的な順列で並ばない。

マウス位置より、イベント数で見た時間別の離脱率?みたいなものの方が興味深いかもしれない。

image
google analytics event report mouse tracking

エクセルに落として、グラフにしてみた。棒はイベント数(時間経過での離脱率)、折れ線がマウス位置。

ヒートマップのファネルレポートとは、比べようがないけど、時間経過、離脱、読まれた位置という3要素は入っているので、想像はできる。

image
google analtyics event tracking time, mouseposition,visitor

突出したのは、スクロールして戻った人がいるかもしれない。

ヒートマップを作る人は、いろんなロジックを詰め込んでいるんだろう。

ページ別セッション、セッション、閲覧開始数

2010/03/04 閲覧開始のないセッションは、セッション中での新規の外部サイトの流入と、中で書いているけど、間違いな気がしてきました。イベントをむやみに発行させたせいかも、、、気を付けて下さい。

2010/02/24) ページ別セッション数は、ユーザ数という記述もありますが、ページ別にみた場合のセッション数です。全体やグループでのページ別セッション数は、個別ページでのページ別セッション数の単なる累計です。 下のエントリは、そのことを長々と説明したものです。それでも、Google Analyticsの数字が読めるようになるかどうかの分水嶺でもありますので、何のこと?という人はじっくりお読み下さい。

———————————————————————————————————————————

アクセス解析(Google Analytics)を始めた時に、最初に戸惑ったのは似たような用語の違いが分からなかった事でした。ページ別セッション? ページビュー? この数字どうやって出してるの?と思って、思考が止まってました。最近、やっと分かったので、それが伝われば良いです。まずは、

それぞれの単語の大まかな意味

  • セッションは、ユーザのサイト内行動の一回分のひとまとまり。セッションは数えた数ですね。
  • ページビュー()は、下図でいくと箱の数。サイト解析の立場から見れば、見られたページの総数。
  • ページ別セッション数は、丸で囲んだ数。同一セッション内での、同じページの閲覧を無視してるだけです。丸を数えてるだけです。結果、一つ一つのページで見たセッション数を累計した数字になります。

簡単ですね。でも、出てくる数字の分類(集め方)が違うと混乱するようになります。

  • 最初に、見てるデータの範囲が、サイト全体なのか? 個々のページなのか? と範囲の問題と
  • 個々のページに注目するときに、ディメンジョンの違いで区別する問題があります。
    • 閲覧開始ページなのか? 単なるページなのか? です。

ディメンジョンという言葉が頭になじまない人も多いと思いますが、我慢して下さい。ディメンジョンの説明がこの記事のテーマでもあります。理解できると、あたまの中で分類表ができます。

絵を使って具体的に数字をカウントしてみましょう。

2010年01月09日21時37分02秒0001

全体(セッション1ー5)の数字を見ます。

  • セッション1ーセッション5までなので、そのままで、セッション数(Visits)は 、5
  • ページ別セッション(Unique Views)は、10。全ての丸の数です。
  • ページビュー(Page Views)は、14。全ての箱の数です。
  • 閲覧開始数(Entrances)は、5(セッション数と同じ、ここでは意味はないけど、予告的に載せます)

個別のページについては、二つの切り口(ディメンジョン)があるのでしたね。単なるページと、開始ページです。ディメンジョンが違えば、指標は、違う数字になりますよね。

それで、ページがAというディメンジョンだと、全てのセッションの中から、

  • セッション数(Visits)は、4
  • ページ別セッション(Unique Views)は、丸で囲ったAの数。4
  • ページビュー(Page Views)は、箱がAの数。6
  • 閲覧開始数は(Enrances)、3

閲覧開始ページがAというディメンジョンでいくと、Aで始まるのはセッション1,3,5で、そのセッションのすべての箱を見るので、

  • セッション数(Visits)は、3
  • ページ別セッション(Unique Views)は、全て(セッション1,3,5)の丸の数。6(A:3 + B:1 + C:2)
  • ページビュー(Page Views)は、全て(セッション1,3,5)の箱の数。8 (A:5 + B:0 + C:3)
  • 閲覧開始数は(Enrances)は、(Aで始まった)全てのセッション数。3

セッション数が打ち消し線なのは、ページ別セッションに概念的に乗っ取られたからです。ページがAというディメンジョンなので、ページ別でカウントするセッションが適当です。閲覧開始ページがAというディメンジョンでは、セッションという概念は成立するのですが、閲覧開始数の方が適当です。(少し、言葉が弱いのは、理解があいまいなせいです)

もう一度、絵を貼り付けます。数をカウントして下さい。(中の言葉の、離脱・直帰はおまけです。話には関係ないです)

2010年01月09日21時37分02秒0001

B,Cも同じですが、書いて起きます。

Bの場合は、

ページでいくと、

全体の中で、Bを数える

  • セッション数(Visits)は、3
  • ページ別セッションは、3(Bの丸の数)
  • ページビューは、3 (Bの箱の数)
  • 閲覧開始数は、3
閲覧開始ページでいくと、

Bがスタート(ランディング)なのは、2、4

  • セッション数(Visits)は、3
  • ページ別セッションは、4(A:1 + B:2 + C:1)
  • ページビューは、5(A:1 + B:2 + C:2)
  • 閲覧開始数は、2

Cの場合は、同じように、

ページでいくと、

全体の中でCを数える

  • セッション数(Visits)は、3
  • ページ別セッションは、3 (Cの丸の数)
  • ページビューは、5(Cの箱の数)
  • 閲覧開始数は、3
閲覧開始ページでいくと、

Cがスタート(ランディング)なのは、ない。

  • セッション数(Visits)は、0
  • ページ別セッションは、0
  • ページビューは、0
  • 閲覧開始数は、0

現実には、Google Analyticsでは、イベント単体(trackPageviewなし)をページビューやセッションにカウントしてしまったり、セッション中の検索エンジン流入をページビューゼロのセッションとして組み入れるので、数字は、多少ずれます。

でも、数字がずれようがずれまいが、基本は上で説明した方法です。これが分かるとデータを見る時の景色が違ってきます。

実際の値を見る。

サイト全体での値

WS000019

ページ別セッションが787で、ページビュー数が1019。閲覧開始数は588(図にはないですが)です。セッションは無いですね、、、ユーザサマリーまで戻って、数字の載せておきます。セッションは611です。

WS000020

冒頭の赤い図で考えると、session1 – session611まで並ぶ感じですね。(ほとんど1個か二個しかないつながりですが、、)そのなかで、箱が1019個あって、丸で囲めるのが787個です。(閲覧開始数が少ないのは後で)

とりあえず、サイト全体の値をつかんだので、個別のページでの数字に移ります。二つの方法を説明しました。とにかく目的とするページの箱と丸を全体のセッション中で集めるタイプである、ページでのディメンジョン。目的のページが閲覧開始ページのものに絞り、そのセッション内のすべての種類のページの箱と丸を集めるタイプである閲覧開始ページでのディメンジョン。

ディメンジョンがページの場合

まずは上から順に、上位のコンテンツをクリックして、

WS000022

ページのURLが出てるが緑の枠で出てますね。箱(ページビュー)と丸(ページ別セッション数)を数え上げて、ページの名前で分類した数字です。attend_seminar_about_analytics_toolsというページで、データを見ると、ページ別セッションが64(丸の数)で、ページビューが74(箱の数)ですね。とにかく、attend_seminar_about_analytics_toolsというページが見られたのが64ページ別セッション(ページ別なので、ページ毎のセッション累計とも言える)あり、重複して見られたのが(74-64)の10ページ分です。下の図は、そのページをクリックして詳細を出した所。

WS000024

それじゃ、このページを目的に見に来た数(閲覧開始数)はというと、

ディメンジョンを閲覧開始ページに、、、

WS000027

*問題があるのですが、次の”個々のページに視点を移すと”まで持ち越します。

今度は全体のセッション数が出て588です。前に触れたように、最初に見た全体でのセッションの数字611と違いますね。閲覧開始のないセッションが23有る事になります。セッション中の外部リンク、検索エンジンからの流入です。(アドバンスセグメントで、閲覧開始数=0で絞って下さい。ページビュー=0でもいいです。今回示した差が出ると思います、その内訳はトラフィックを見ます)それ以外が原因かもしれないですうが、分かりません(2010/03/04 eventのせいのような気がしてきました。)

個々のページに視点を移すと

attend_seminar_about_analytics_toolsのページの閲覧開始数は、56です。先ほどの上位のコンテンツのデータと併せて、

  • 閲覧開始数は56,ページ別セッションは64、ページビューは74になります。

じつは、これには問題があって、両方とも、ディメンジョンがページなんです。閲覧開始数は閲覧開始ページでのディメンジョンじゃないです。ただ、閲覧開始ディメンジョンでも、閲覧開始数は同じになります。今回の56は、面倒な書き方だと、ページディメンジョンでattend_seminar_about_analytics_toolsのページ別セッションが64あって、そのうちの56が閲覧開始ページになったという順序になります。他の数字は変わってきます(それが、この記事の主題です)

下図は、セカンドディメンジョンで閲覧開始ページをだしたものです。セカンドではなく、メインのディメンジョンにすればいいのにと思いますが、設計側の人は、コンテントでのディメンジョンをページで統一したいのでしょう。僕には、そのおいしさは分かりません。

WS000028

閲覧開始ページの機能は、腐っている(機能不全)という事です。(僕は勘違してるのかなあ?)

では、閲覧開始ページを基点にする分析は、アドバンスセグメントで、個別の閲覧開始ページをセグメントするしかないのでしょうか?

(注意: 2010/03/01) 個別ページの詳細(コンテンツの詳細)の閲覧開始ページの最適化の参照元とキーワード、ナビゲーションの分析のページ遷移は、個別の閲覧開始ページをディメンジョンにしたレポートです。これを書いた時には、気づいてませんでした。流入元の分析はこれで十分ですね。

カスタムレポートで、データの組み立てを変える。

WS000029 WS000033

*カスタムレポートでの指標。全体を見る時は、ディメンジョンが、ページでも、閲覧開始ページでも、指標は同じになる。

*Google Analyticsには3つのデータ組成方法が用意されてます。レポート画面、カスタムレポート、Data Export APIです。レポート画面は、データの組み立て方(ディメンジョンと指標)が固定です。カスタムレポートはこの制限が外れます。組み立てが自由になります(データの整合が付く範囲で)。Export APIだと、もう少しだけデータ表示の粒度が小さくなります(SecondPagePathとか)。

カスタムレポートで、データの組み方を変え、データ集約し、イメージをつかみます。数字の確認をします。

1.全体の数字。

  • 前の通常のレポートでは、閲覧開始数588, ページ別セッション787,ページビュー1019でした。(セッション数は611)
  • このカスタムレポート(どちらでも)では、590, 789, 1021と2増加していますが、理由はわからないので無視します。いずれにせよ、データを集約したおかげで数字は一覧できてます。

2.ページで見る(attend_seminar_about_analytics_tools)。(attendとかaboutとか、英語が変かも、、)

今度は、ディメンジョンで、データが分かれてきます。

  • ページがディメンジョンの場合、
    • 通常レポートのページでこれは出せた数字でした。 ページ別セッション64,ページビュー74,閲覧開始数54
    • 今回のカスタムレポートでの数字は、ページ別セッション64,ページビュー76、閲覧開始数56。+2の問題が続いてますが無視。
  • 閲覧開始ページがディメンジョンの場合、
    • 通常レポートのページでは、出せない数字でした。
    • 今回のカスタムレポートでの数字は、ページ別セッション83,ページビュー95、閲覧開始数56。
    • この違いは、冒頭の赤字の絵のところでやりました。閲覧開始ページがディメンジョンの場合は、他のページのページ(箱や丸)もカウントするんでした。内訳を下でみます。

閲覧開始ページを基点に分析する。

WS000030

カスタムレポートは、サブディメンジョンを設定して、データをドリルダウンできます。

個別に見るために、前の図の青い線の所のリンクをクリックして、attend_seminar_about_analytics_toolsが閲覧開始ページとなったセッションに絞って、全てのページを対象にしたディメンジョンにしたのが上図です。

緑の部分を見ると、attend_seminar_about_analytics_toolsというページがランディングと成ったときに、他のページがどれだけ見られたかがわかります。先ほど、全ての箱と丸をカウントした数字が、83と95と言いましたが、内訳がここに出ました。他にも離脱数や、コンバージョン数の内訳もわかります。

これで、特定の閲覧開始ページ(ランディングページ)でのユーザの行動が大づかみにイメージできると思います。どれだけ来て、どのページで離脱して、コンバージョンはどれだけで、他に見たページはこれと、、

セカンドディメンジョン、ピボット、モーションチャートも使えて、参照元をクロスもできますし、カスタムレポートはタブも追加できます。付け足せる指標は、整理した上で、どんどん追加すればいいと思います。僕のは、ゴールとサイト内検索を二番目のタブで表示するようにしています。

下図は、ピボットでのメディアとのクロス表示、GORL+検索タブのテーブル表示の例

WS000031 image

最後に、このカスタムレポートのリンクです。閲覧開始ページ(ディメンジョン)ーページ(サブディメンジョン) http://www.google.com/analytics/reporting/edit_custom_report?share=D6gTFyYBAAA.5cmZVfTgv7FSDQaf3SApcFxLgrWtp6XX2b1j9gb1nX3izAa1wpJK_RQo77SGC-u9A-hXJr7Lb1iTimZhel0XfQ.mH8vnMlCM_O-0VGBJOIpcA

まとめ

  1. 言葉の意味を整理しました(定義や仕様は分からないので、僕自身で整理しました)
  2. まずは、セッションという概念をだしました。
  3. その次に、ページ別セッション、ページビューの数え方を書きました。
  4. その次に、ディメンジョンという概念で、データの数え方が違って来ることを書きました。
  5. 実際に、カスタムレポートを使って、数字を追う事で、ディメンジョンの概念が頭に浸透するようにしました。
  6. 結果、閲覧開始ページを基点にしたページ分析ができました。

感想をもらえると嬉しいです。

trackEventとpageViews、bounceRateの関係

Google Analytics(GA)でのtrackEventの使用は、PageviewsとBounceRateに変化を与える。その影響についての理解と疑問を書きます。

直帰率とEventTrackの関係で理解の混乱が起こっている。

http://padicode.com/blog/analytics/the-real-bounce-rate/ この記事で、10秒以上ページが開かれていれば、engagementとして、BounceRateの集計から外す提案・コードの紹介があった。さらに、この記事ではPageviewsの数値は、TrackEventの影響を受けないと記述されており、グラフも付けられている。しかし、、、

実際に試してみると、pageviewsの数値にtrackEventが加わってるように見える

また、計測のためのコードの書き方に依存して、出る数値が異なってくる。pageviews=(trackPageviewの行使数+ユニークイベント数何かのイベント数?(上限が1?))のような気もするが、はっきり分からない。

* ユニークイベント数は、カテゴリー+アクションで分類されるイベントの種類数。labelの違いはユニークを産まない。記述自体は間違ってないようだけど、話の筋とは関係ないですね。

下図は、僕のレポート(昔のだけど、10秒後にeventを出すようにしてた頃とその前のものを比較)1ページビューがほとんどのサイトだったのが、2ページビューがほとんどになってしまった。

image

googleの説明を探す

BounceRateは、gifリクエストが一つしか発行されなかったvisit(session) という解説もある。

pageviewは、あるディメンジョンに沿って集計されたpageview数という循環説明で不満が残る。

よくわからない、、、

昨年来から、いろいろ悩んできたんだけど、上手く書けないし、先に進む為にもとりあえず、この件は一旦忘れる事にします。疑問は棚上げ。

ちなみに、セッションの滞在時間は、pageviewsの時間間隔を足し上げた時間量指標と思われる。なので、pageviewsという指標(eventの取り扱い)がはっきりしないと、ぼんやりとしたイメージしか浮かんでこない、、、orz.   そして、その平均である平均滞在時間もぼんやりとなる。さらに、直帰のものは抜くという仕様らしい。(過去には違う扱いだったらしい) Googleの肩に乗って生活してるけど、この辺りのごまかし方には不満が溜まる。

サイト及びドメインの移転とGoogle Analtyics

レンタルサーバー選び を日常blogで書いた。

実際の作業では、多少Google Analtyicsの話も書きたいので、こちらに。

引っ越し作業(データ、ファイルの移動)を終えても、いろいろと手続きが残る。

  • webmaster tools, Yahoo SiteExplorerの変更、登録
  • 以前のserverには、301でredirect設定
  • robots.txtの書き換え
  • FeedBurnerを作り直し。(Feedにも更新通知を出しておく)
  • Adwordsの設定替え(放置してるので、放置続行)
  • Adsenseに新規サイトの設定
  • Google カスタム検索の入れ替え
  • wordpressのwidgetで、情報がupdateされてない部分の書き直し
  • Google Analyticsの設定変更、、、

と、いろいろあるんだけど、

実は、最後の Google Analyticsはドメインを変えても、設定を変える必要がないようにも見える。(移転前のドメインも生かしてる、redirectしてる場合)

(2010/01/06)

よく考えたら、cookieは変わってしまうわけで、returnユーザがいなくなってしまう。

データはとれても、継続性に大いに問題ありですね。

ここから下の記述も勘違いした状態での記述になります。

問題は、データの受信の確認の所なんだけど、前のサイトも生きていて、redirectで新規のサイトにリクエストが行くと考えると、データ受信はそのままでもOKなような気がする。 ステータス確認ボタンを押しても、受信マークはそのままだし。

Google Analtyics status

データとしては、下図のようにホスト名のところにデータを送ったドメインが出る。

Google Analtyics hosts

上から、前のドメイン、Googleのキャッシュ、新規のドメイン、209..もgoogleなのでigoogleとかかな。最後は翻訳。

でも、どっかでプロファイルを切り替えるのが妥当な運用方法だろう、そのうちステータスが何か言うかもしれん。

SEOを強化する技術の本は役に立った。情報が薄い分野で、教えてくれる人があまりいない。イチからスタートして、いまだ外野にいる人には有り難い内容。ドメイン、サイト移転でやるべき事が整理された。書いてある手続きを全部はできないけど、頭の中にはindexが張られたような、、、ネットを徘徊するより時間の節約になった。

ただ本の想定読者は、データベースの設計やら、URLの設計などもあり、個人レベルを超える内容。主に企業で運用する人向けの本。Fiddler2もFirebugなんかよりも高機能すぎて戸惑う。

安川 洋¥ 1,890
SEOを強化する技術を詳しく書いた本
クリティカルで「失敗しないSEO」
データベース:1位 (2010.01.01)