tryourbreast 发表于 2015-7-1 04:42:14

東方人氣投票數據分析結果〔第一階段〕

本帖最后由 tryourbreast 于 2015-7-1 11:47 编辑

經過半個月的研究,終於完成第一階段了。

p.s 今天剛好是生日,這帖絕對不是水,相信我(夠






引言,背景知識及動力

一般談到人氣投票,大家就表現得像股民一樣(跟最近的股市沒有關係),問的問題主要有三種:
1. 我的本命漲了嗎?
2. 我的本命會漲嗎?
3. 誰暴漲了?靈夢今年世界一位了嗎?秋之夾擊夾到誰了?(下省一千字)

嗯,因為明顯很多人只關心以上事情,所以分析的深入程度基本跟0是沒有分別的。
一列表的股票列表在他們眼前,讓他們感覺自己已經能看穿一切;再看到電視台財經新聞上的「今年十隻升/跌幅最大股份」和「股份往績」,更是覺得已經做了不得了的分析過程。

而然無卵的英文就是”Who cares?”。

---------------------------------------------------

一般來說,要人們把投票結果做成圖表,是件天大的難事(連官方也很喜歡列出一堆數據就完事了),所以看到這種圖表就該謝天謝地了:

圖1. 第11回投票的分佈圖(直條圖)。來源推特@hnwpkids

當然,這樣是甚麼也分析不到的:
1. 明顯地,每相差一位,票數相差應該成一個比例,而不是一個等差(斜率)。10票和9票間的差別,對應1000票是900票,不是999票。
這個表示我們應該用對數軸表示y軸,因為對數軸的斜率與比例差成正比;而事實上,不論甚麼的人氣投票結果,用對數y軸畫出的話都很接近一直線;
2. 絕對票數和絕對排名沒甚麼意義:如果我們直接看絕對數值,那麼極大部份角色票數都大幅增加了,排名則大幅跌了,因為角色池多了,投票人數也多了。
這表示我們應該用相對排名,即票數對應總票數的比例,及排名在全角色的百份比;也就是說,對兩軸數值進行正規化(Normalization),去除每屆總人數與總票數不一樣造成的對比困難。
3. 比較票數分佈不能只用本期的結果,倒不如說,每次結果特徵都相差極大的投票,才是有問題的。

當我們開始認真起來,就會看到更多以前看不到的東西。


---------------------------------------------------

本分析使用了日本和中國的人氣投票結果,還有童祭的人氣投票結果。

日本人氣投票規則:每人選5個角色投票,當中有1個本命票,得分雙倍。
中國人氣投票規則:每人選5個角色投票,可選1個為本命票,得分雙倍,然而不影響排名。
童祭人氣投票規則:每人選5個角色投票,其中分成3類,1個能得3分,2個能得2分,其餘2個能得1分。

由於我們可以假設人們都選心目中第1位的角色在本命票的位置(這個是常識),所以我們在此假設,投票者的排列便等於填入的順序:例如童祭投票,3分的是1位,2分的是2和3位,1分的是4和5位。
這樣可以方便分析。

票數分佈


圖2. 歷屆票數分佈圖(日本),線圖

圖3. 歷屈票數分佈圖(中國),線圖

投票內容,時間和受眾的不同,會導致不同的票數分佈整體結構,衰減速度及具體特徵(以下三者合一稱為光譜特徵)。這個可以拿任意人氣投票來驗證,包括其他作品的人氣投票,或新番人氣投票。
光譜特徵可以用來辨認投票。
日本區投票分成了五個區域,在下個章節會解釋為甚麼這樣區分。

日本方投票至第4回開始,在總排名60%處便有顯著的牆壁,幾名間票數可以相差25%以上(這個不看對數軸是看不出來的)。相比之下第11回在~50%的那個暴跌,是11回才出現的情況。
另外,票數比起衰減分佈的平均線,在前面有明顯的凸起,60%是回到平均線(以下)的分界線。這個是日本投票光譜特徵之二。

相比之下,中國方投票的光譜特徵則相反,在~30%之處由下方穿越平均線。

另外有一點就是,中國方投票隨排名的票數衰減速度比較快,這個我們會在後面談到。


投票人數愈多,光譜特徵愈顯而易見,中國方投票人數如果翻個十倍,也許能看到更精細的特徵。

不過,光譜特徵本身除了用來辨認,並不能幫助我們推導出甚麼結論來,我們需要別的更好的方法去驗證。



各項數據飄移

一般討論排名位置本命率等數據,都只會分析當屆投票前十名的,就像只摸海面而要知深海暗湧一樣,當然得不出甚麼結果來。
其實最好的方法就是把所有軌蹟一起列出來,這樣可以看見分佈上的一些趨勢。


圖4. 所有角色的排名飄移(日本),圓滑線圖

從這圖我們看見了一個少為人知(但應該有些人感覺到過)的事情,就是排名飄移分成了五個區域;
第一區域(紅)在約前10%(11屆的19位),實線的一半左右;
第二區域(綠)在10%至30%左右,實線一半到長虛線的開端;沒有特別的分界角色;
第三區域(藍)在30%至45%左右,長虛線上半部;分界角色大約是神綺和綿月依姬;
第四區域(紫)在45%至60%左右,長虛線下半部;也沒有特別的分界角色;
第四區域(棕)在60%至100%,整個短虛線部份。

四個區域的排名飄移明顯有不同的層流至擾流程度,由穩定至混沌是:
45%-60%, 30-45%, 0%-10%, 60-100%, 10-30%
而60%剛好和排名分佈下插平均線之處十分吻合。

幾個部份的結構在長遠來說是很穩定的,能穿過兩個區域的角色一般並不多。


圖5a, 5b. 票數比飄移

將票數比和排名比一看,我們又有新的結論了:

在第9屆投票以前,紅美鈴(3屆橙線剛好對上的那條黑線)一直成為中間~1%票數的亂流的上確界(即第二區域);不過現在紅美鈴掉進去了,新的上確界變成了帕秋莉。
這證明廣泛流傳的紅美鈴之壁是有根據的,但看現在應當叫圖書障壁了(不
以目前的趨勢,帕秋莉掉進混沌的第二區域只是時間問題,下一個上確界應該會是幽幽子或八雲紫(11屆橙線對上的綠和藍線)。

中間的一團大亂流(1%票數),票數集中在一處,這便是第二區域的所在處。
這同時也可以解釋日本投票分佈的光譜特徵之一:因為這地方票數極其密集,所以把票數隨排名的衰減速度減慢了,導致一個凸起。

然後便是0.25%的空隙,0.1%的空隙,分割了第3至5個區域。
尤其在0.1%之處,這個空隙極為巨大,這才是投票結果中最大的牆。


圖6. 本命率飄移

很不幸的,從本命率飄移並無法看出甚麼。全範圍都是一樣的擾流。

我們要用其他方法來分析本命率。

另:中國的投票數據由於數據量太少,無法分析排名飄移。



本命分析與選項排位的分佈差

由於人氣投票並沒有原數據(所有人的5選項),所以分析選項排位間的聯繫變得極為困難。

不過,童祭的數據比thwiki.cc的有一個大好處,就是把選項分成1位,2+3位和4+5位了,我們可以把三項拆出來,看看有甚麼分別。
(至少比thwiki.cc的仔細)

選項間分佈當然不會是一樣的了,因為所有選項都要出現一次;2-5位的票數是以戀最多,然而你問180位的票數哪個最多,那麼前100名肯定都沒份的,因為它們都被填到前面去了。


圖7a, 7b, 7c. 童祭投票數據的不同分段票數分佈(所有非分散的單獨某項的數據都經過了排序,能作為很好的平均值指示,不過不再對應同一位置了)

由圖7a我們可以做出假設,衰減速率是隨排位數遞增的:
假設1名為1,2+3名為2.5,4+5名為4.5,那麼(1*1 + 2.5*3 + 4.5*5) / 5 = 2.5,正如圖中一樣,加權後結果與2+3名的很好地重合(相關係數-0.044)。


圖 8a, 8b, 8c. 不同投票結果的比較。

剛才也說過,中國人氣投票的票數衰減速度比日本的快,1-5位的票數加起來衰減速度才跟日本投票的1位相等。
那麼本命結果更不用說了,自然衰減得更快。
這個可能原因有不少,不過能肯定的是,人氣與不人氣間的差距比日本方要大。

題外話:第10回投票和童祭投票的結果幾乎吻合,更加印證了光譜特徵的說法。



雜項

用相對排名來看的話,是可以看出”角色登場新作加成”這buff的。
例:8回的射命丸文(文花帖DS)和三月精(大戰爭),10回一輪(心綺樓),戀和正邪等。

不過這個討論其實沒甚麼價值,所以不多說。



總結與討論

很多時候我都不知道自己在幹甚麼,為甚麼沒有人一起來分析啊!

基本上我們總結了幾件事:

1. 日本東方人氣投票的票數分佈有幾個明顯的分區:在第一和比較穩定的第三層之間,有一層角色的票數縮塌一處,導致排名混亂,然後在底下有一層相對排名很穩定的角色,直到60%的大分界線,再切出比較混亂的第五層。這導致日本人氣投票分佈的一些光譜特徵。

2. 本命率出奇的混亂,毫無規律可言。事實上,本命率很大部份上取決於角色(例如秦心的非本命率是突破天際的。而11回戀的勝利靠的也是非本命票),而且區域分隔沒1-5名的明顯,肉眼根本分不出來(本命票的圖表沒放出來)。另外,本命率的大波動也許代表很多人其實是多本命,每次投票都搖擺不定,不知讓誰當本年正妻為好。

3. 中國人氣投票的票數隨排名的衰減比日本的大。這可能代表中國的東方圈對非人氣角色的宣傳不力。普及不人氣角色,似乎有點重要。



展望將來,這次第11回東方投票額外公佈了一個很重要的數據:每角色的關聯投票排名,這個將有助我們建立投票者選項間的連繫。

不過,這個要留待第二階段的分析了。

第二階段也會進行更多的子集分析,例如可以把上面五層分區的其中一層抽出,看看有甚麼特徵(如本命率)。



順便,我不是統計學專業,如果有野生的統計學大觸,請不要猶豫,過來狠狠抽我的臉,用上更好的數學方法!

slig 发表于 2015-7-1 07:27:00

koishisatori 发表于 2015-7-1 10:26:39

我的感覺是:XX之壁大概就是說某些存在時間足夠長的角色,比如舊三作就出場的那些,在積累的足夠的人氣之後產生了一個相對固定的粉絲群,而這些人也往往是東方的鐵桿粉,只要有人氣投票就會把自己的票投給本命,造成的結果就是那些角色通常會有一個穩定的票倉。相對於人氣不太高的角色,這些角色的排名會相對穩定,形成了一個穩定的區間,雖然相互之間的排名會有小幅變化,也會有一兩個攪局者出現,但是整個區間的位置不會有太大的變化。這個區間之外的角色,也會有一個相對較小的固定粉絲群,但是她們的票數會更多的來自於非鐵桿粉絲,所以會出現各屆之間票數的波動。
嘛,雖然是個人解讀,是這樣沒錯的吧

凯风快晴 发表于 2015-7-1 10:58:34

不知讓誰當本年正妻為好。


正妻年年换么

然而我老婆一直是妹红

tryourbreast 发表于 2015-7-1 14:52:07

koishisatori 发表于 2015-7-1 10:26 static/image/common/back.gif
我的感覺是:XX之壁大概就是說某些存在時間足夠長的角色,比如舊三作就出場的那些,在積累的足夠的人氣之後 ...
不過現在有五個區間嘛,這樣解釋不了第二個區間(綠色)那個比誰都亂的排位情況



(啊,不小心把點評按成回覆了!

hatsuneharuka 发表于 2015-7-1 17:16:42

好厉害的分析,这个东西一定做了很长时间吧,楼主辛苦了。生日快乐!

miyazakehime 发表于 2015-7-1 17:39:37

总之,能不能标一下横纵坐标轴。

话说,感觉还是童祭投票最合理

shyboy110 发表于 2015-7-1 20:17:02

生快噢~!觉得【這可能代表中國的東方圈對非人氣角色的宣傳不力。普及不人氣角色,似乎有點重要。】真是太有道理了,大部分人都集中在红妖永呢,之后的角色有一战之力的屈指可数

wangwox 发表于 2015-7-1 22:46:53


生日快乐

橙子味 发表于 2015-7-2 00:57:57

本帖最后由 橙子味 于 2015-7-2 01:01 编辑

一讲到人气投票就想到一堆人喊高了、低了_(:з」∠)_想了解下,人气的变化对社团的创作方向影响大吗??
页: [1] 2
查看完整版本: 東方人氣投票數據分析結果〔第一階段〕