本篇文章6288字,读完约16分钟
有时我会想,我可能是井里的青蛙吗?智虎用户是紧密围绕着一个核心群体,还是聚集在许多相互之间无法交流的孤岛上?如果是后者,我真的会因为属于另一个群体而错过大量值得关注的用户吗?
智湖有多少人?年初是400万,5月是600万,现在是700万还是800万?
他们大多数都活跃吗?专业?它受欢迎吗?
他们在关注谁?谁关注它?
最近有多少30个用户被频繁谴责?百分之几?
有了这些问题,我修改了爬虫算法,尽可能大范围地收集用户和他们共同关心的问题。
以下是调查和分析的结果。
概观
数据收集方法:以2014年8月20日“看智湖”网站监测的28810名用户为种子,遍历其关注者名单;其次,第一次收集的用户关注者列表被遍历两次,然后总结所有用户及其关联。
本项目实施的时间跨度为8月21日至24日,时间造成的数据误差在容许范围内,不影响结果的合理性。
收集的用户总数为3,507,426。
嗯?350万?比预期的少一半吗?
没错,但另一半基本上可以确定为30个提问、回答问题并关注他们的用户,以及僵尸粉丝中只关注彼此的小群体,其中大多数账户应该是不活跃的,不参与问答。
考虑到智湖的规模和用户群的凝聚力,这种猜测是合理的。剩下的数百万账户几乎不可能拥有一批不与外界交流的有价值的用户。
暂时忽略它们,假设智湖的所有用户都是这3,507,426人,以下所有分析也在此范围内进行。
一些数字:他们提出了1381317个问题;写了5,065,386个答案;发表了21,098篇专栏文章;获得41,856,875项批准;51,934,080人表示关注。(不包括匿名行为)
调查对象
在正常情况下,智湖用户从零开始的过程应该是这样的:
回答问题;因为答案的优秀质量而获得认可;唤起别人的兴趣,然后关注自己;以上三个步骤是循环或交错的。
这涉及到三个重要指标:答案号、批准号和关注号。
让我们讨论前两个,并集中在以下部分。
智虎的作者-读者关系和传播路径大致是这样的:
顶端是信息制造者;下面是一个帐户,互动读者,谁可以通过同意,反对,评论等影响和传播答案。;下面是一个纯粹的读者。
那么,金字塔顶端有多少受访者是智虎用户?这些受访者中有多少人获得了批准?有多少人关注过它?
以下数字可能会让你有点惊讶:
换句话说,智湖80%以上的人在注册后没有写任何答案;
此外,有一半写了答案的人从来没有被批准过,大约三分之一没有注意到;
换句话说,在智湖,即使是一个被认可的用户也排在了前8.77%的位置。
(最高纪录保持者是一位朋友,他写了340个答案,但没有人同意——不可能,答案太笼统了。获得批准的307,430人可以细分为:
我经常看到有人在回答上更新“哇,有几百个赞美”,这表明人们认为有几十万人同意,这是相当值得尊敬的。同样真实的是,在1000多人中,只有1.86%的人同意这个观点——不是所有人中的1.86%,但至少有一个人同意。如果把它放入所有用户,只有0.1633%的用户同意超过1000人,也就是说,不到千分之二。
同意
我们经常在话题集锦和热门推荐中看到成千上万的答案,但其中许多只是偶然现象。一般来说,只有一个或两个高投票率答案的用户在智湖可能是短命的。它既不能持续地引起读者的兴趣,也不能转化为注意力。
让我们计算所有用户的最高投票数和总体批准数。除了最高分,我们还从高到低依次选出前5名和前10名的答案进行比较。
(如果答案的数量少于5或10,请选择几个。(
解释一下。
底部的“全部”线,即图表中最右边的一列,指的是所有智虎用户在所有批准中的最高投票比例。
平均而言,单个答案的票数占三分之一,而前10个答案的票数接近70%;
前几行是批准号在一定范围内的所有用户的比例。可以看出,用户得到的认可越多,他们就越不被一个或几个答案所重视,但他们会有更受欢迎的答案。
然而,另一个有趣的现象是,在所有批准人数少于10,000的用户中,投票率最高的答案的比例平均在45%至50%之间,超过10,000后,这一比例急剧下降。
这不难解释:智湖只有50多个答案同意突破千字,这种情况并不常见,而且大多数投票率高的答案都在百字或千字的范围内。因此,相当多的用户将依赖于对单个答案的批准来进入上限,如果它被删除,它将回落到下一个数量级。
当你写下第一个受欢迎的答案时,不管你是有干货还是聪明,你都不能仅凭它就到达人生的巅峰。只有在你擅长的领域不断输出信息,你才能得到更多人的认可。
注意力数字显然代表着更高的认知水平。
如果批准号是军事奖章,代表过去的成就,关注号是军衔,代表未来的影响。
下图更清楚地解释了这一点:
它表达的是:
如果只有一个高票的答案是精彩的,而其余的答案是平淡的,那么它不会得到太多的关注;
相反,如果一个人有成百上千个非常受欢迎的答案,并在一个或多个领域建立了声誉,那么被关注的可能性会急剧上升,甚至远远超过被认可的数量。
接下来,我们将详细分析“关注”的问题。
追随者
对于用户来说,“追随者的数量”,或者说粉丝的数量,是最重要的指标,因为它代表了当他回答问题或者同意回答时的直接交流范围。
有时,我们用微博的标题来称呼成千上万的粉丝为“大V”(尽管智虎没有认证系统)或“大牛”,以及那些拥有成千上万粉丝的中国奶牛。
那么,在智湖数百万用户中,这些大、中、小牛犊占了多少?
直觉上,这可能是相当多的。毕竟,我们每个人都会关注几个感兴趣的人,他们的答案经常被推到时间线上,并且被重复。
但是直觉不那么可靠。统计结果如下:
从图中我们可以看出,近70%的智乎是一个根本没有被重视的小透明度;超过96%的人拥有不到10个粉丝;
粉丝超过1000人的仅占9/10000。
换句话说,99.9%的人的影响力极其有限。至于有限的范围,将在后面详细说明。
顺便说一下,有2,092,271个“30个用户”零关注、零提问、零回答,占所有用户的59.65%。
影响
对于普通用户来说,主页时间线是获取信息的最大渠道,很少有人愿意进入发现渠道或话题来积极寻找新的问题和答案。
那么,是谁推动了占据他们时间线的信息?
换句话说,智虎用户乐于关注谁?
如果一个网站是“社会化的”,那么每个人都会更加关注他们的熟人和朋友;然而,如果“媒体”更强大,人们会更加关注名人、大号手和专业人士。
微博是两者的结合,因为常见的行为是关注一群朋友和几个大Vs
正如我之前所说,智湖的大多数人都没有多少粉丝,所以他们更愿意互相关注。还是尽可能多注意大奶牛?接下来,我们将分析这一点。
首先,总结所有用户的注意力行为,看看他们更愿意关注谁:
这幅画可能不容易理解。解释一下,如果你关注50个人,就有50种“注意力行为”。如果你关注一个只有十几个粉丝的普通人,它会积累在1~100的范围内,而如果你关注一个有几十万粉丝的名人,它会积累在1万多个范围内。
所有51,934,080个“注意力行为”的汇总结果如上图所示。
与上一节的数据相比,我们可以看出智虎用户的注意力有多集中:
粉丝达到100人的人数不到用户总数的1%,但却吸引了85%的注意力;
只有700多头大牛,拥有超过10000名粉丝,但是当智虎用户点击“注意”10次,他们就属于这个小群体7次。
从另一个角度来看,这可能更明显。
我们要计算每个智虎用户关注的人群中拥有100个以上粉丝、1000个粉丝和10000个粉丝的比例。稍加简化后,它是下面三张图片:
乍一看,这似乎更难理解。在这里,解释一下:
以第一张照片为例,77%的智虎用户只关注粉丝超过100人的人,而忽略了不出名的普通人;另有19%的人也关注少数普通人,但半数以上仍是大中型犊牛;只有4%的例外。
看看最后两个,会更清楚。
65%的人只关注3000多只拥有数千粉丝的“中国牛”;
将近一半的人把他们的注意力完全限制在729头拥有超过10,000名粉丝的“大牛”身上。
现在你应该能感觉到智虎用户的受众地位是多么明显:他们中的大多数人只盯着那些奶牛看,时间线上覆盖着他们的答案和建议。
换句话说,它的“社会性”远不如它的“媒体”,尽管许多人最近开始说智湖是一个社交网站,越来越多的人抱怨有效信息被稀释和泛滥。但对大多数人来说,他们来这里是为了阅读和倾听,而不是表达自己的观点。
关联度
上一节的结论似乎是智虎不是社会性的。这是真的吗?
在总共51,934,080个注意行为中,只有1,291,626个是双向的,不到2.5%。
换句话说,社交媒体上常见的“粉底”在这里基本上不起作用,因为当你关注某人时,你只有1.25%的概率得到粉底。考虑到智虎的媒体性质和目前关注几头大牛,几十万粉丝的大牛不能一个一个的退粉的现状,似乎社会性确实不够。
但这并不意味着智湖没有社会交往。
如果你按照粉丝的数量来划分人群,把大家都在关注别人,对方也在关注你的情况都整理出来,就会得到以下结果:
结论有点残酷:每个人都喜欢和丹尼尔做朋友,所以当他们注意到别人的时候,很有可能得到粉末;恰恰相反。当你不出名的时候,很少有回答者。
有人可能会问,整体双向关注率只有2.5%,但为何这里最低的也是6.01%?统计中有错误吗?
没有,因为占总数70%的2425064名零粉丝的23125516个注意力行为根本没有得到回应,即返粉率为零,降低了整体水平。
这个结论似乎更加残酷。我们谈点别的吧。
人们总是说每个人都在关注丹尼尔。那么,当观察范围仅限于“牛圈”时,它们之间又是什么关系呢?
我们仍然以风扇数量100、1000和10000为分界点,将它们的数据分别排列成表格:
解释里面的名词。
人数:这个范围内的人数。请注意,超过100个风扇也包括超过1000个风扇,这与以前的许多图表不同;注意次数:如果任何人在此范围内注意另一个人,将被计为一次注意,相互粉将被计为两次;理论上的最大值:假设这些人中的任何两个人都是相互粉化的,计算理论上的最大关注时间;注意率:注意次数/理论最大值,越高,越接近每个人;平均关注人数:关注人数,即平均每个人关注多少人;平均路径长度:我们都知道六度分离理论,这意味着一个人平均只需要六个人就可以联系世界上的任何人,所以路径长度是7。
当然,六度的范围已经很大了。一般来说,圆越小,连接越紧密,路径长度就越短。
公式是:,其中n是路径长度,n是人数,w是相关人员的平均人数。
假设注意力的数量达到理论上的最大值,路径长度为1,也就是说,每个人只需要一步就可以联系到任何其他人。
然而,在智湖成千上万名球迷的公牛队的路径长度只有1.5。这是什么概念?平均而言,两头大奶牛可以直接或仅通过中间人相互认识;
即使在拥有100多名粉丝的近20,000人中,平均而言,他们只需要通过中间人就能相互了解!
看到这一点,恐怕每个人都知道智虎的关系网有多密切。
顺便说一下,所有智虎用户的路径长度为5.65,略低于六度分离。
如果你仍然感兴趣,这篇文章附带了一个有趣的小程序,是关于丹尼尔互相注意的。你可以通过移动鼠标知道这些人有多熟悉。
粉丝质量
“过去,”陈琴提到一个次要关注的概念,即有多少粉丝。它可以显示一个智虎用户是否经常受到丹尼尔或者30个用户的关注,换句话说,一个人的粉丝的平均质量有多高。
在阅读了前面几节的分析之后,我们大概可以猜到统计趋势:在丹尼尔的粉丝中,有相当多的人和自己处于同一水平,但是相对来说,他们中的大多数是30个用户。
事实果真如此吗?我们编制了以下图表:
图中的每一列代表其风扇数量在一定间隔内的用户组,而不同的颜色表示其“风扇的风扇”数量的分布。
当然,与预测一致的趋势是30个用户(橙色)占丹尼尔粉丝的绝大多数。相反,越是不被关注,我就越是和粉丝们保持一致。
例如,当某人有少于100种粉末时,70%关注他的人都在这个范围内(青色)。
然而,最小的群体有很多能量。以下是根据风扇数量对风扇组的总结:
这一次,情况正好相反。30个用户的比例完全为零,80%的贡献来自10,000多头大奶牛。
可能不容易理解为什么最右边一列中蓝色部分的比例变小了。事实上,原因是“丹尼尔关心的普通用户”太少了。如果减去那些在智湖早些时候注册但长期不活动的人,恐怕这个比例会更低。
次要问题的分析在统计学上可能不重要。因为智虎的关注状态是大量的纯读者集中在几头大奶牛上,恐怕要找出谁的粉丝质量更高并不容易。当然,我发现了它的另一个用途,那就是寻找僵尸粉丝和喜欢的僵尸...
摘要
文章的每一段都围绕着数据,很少谈论它对智虎来说意味着什么。
如果你必须总结一下,其实很简单:
智湖有很多用户,但贡献和关注的区别绝不能用80-20原则来描述,它只是百分之一,甚至千分之一英里。
用户金字塔的顶端形成了一个非常紧密的圆圈。
借助了解社区和媒体平台的放大效应,这个小圈子的影响力不亚于大中型网络媒体。然而,无论是圈内人士还是作为管理者的智虎团队,对目前的形势都没有足够的认识。应对一些不可避免的带有影响的情况,导致社区氛围的不和谐。
理解问题是解决问题的第一步。如果我们只根据周围的情况来解释最近发生的一些事情,就会产生许多误解。如果我们掌握了智湖的一些总体情况,我们也许能够做出一些改变。
附言
这个小统计根本不是一个“分析报告”,它的标题是虚张声势。没有大量的数据和深度挖掘,只能被视为收集一些表面信息,并简单地解释它。
当然,最大的遗憾是数据太少,没有直接渠道,以及缺乏获取更多有用数据的能力。事实上,我真的很想知道每个答案下的点击时间和位置(例如首页或内页),这样我就可以分析很多与沟通相关的信息。但即使你能得到它,一台个人电脑在该地区可能无法安装和查询...
毕竟,我只是想通过真实的数据向你展示智虎的“另一面”,而不是像很多人最近做的那样,根据我直接观察到的情况来思考整个网站。也许有人可以凭直觉猜测认可和关注的分布,这就足够了。但是随着数据的进一步完善,总会有意想不到的时候。
虽然只收集了一些最简单的问题,但我认为这足以挖掘出更有价值的信息。原谅我的愚蠢,但是如果有人能给我一点提示,我可以试着再次挖掘它的潜力,看看还有什么可以解决的。谢谢添加语料库
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??变得强大。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0