不管你是看电视直播还是刷赛事网站,比分和数据都是你一定不会错过的精彩部分。如果你经常看网球,想必你也会经常听到制胜分、非受迫性失误这些术语。那么这些数据是如何被统计被出来的呢?今天,我们就来聊一聊这个话题。
一级数据 VS 二级数据
首先,我们来说两个概念:一级数据(First Level Statistics)还有二级数据(Second Level Statistics)。
一级数据包括了网球比赛中最基础的一些客观指标。例如:发球是否失误、谁得到了这一分、发球是否是Ace球。通过这些数据的收集,经过计算,可以很容易的得出:一发成功率、一发得分率、二发得分率、破发成功率、总得分等其他信息。也就是说,在一场比赛中,主裁判所记录的所有原始数据,以及通过这些数据计算后所生成的其他统计信息,全部都是一级数据。
而说到二级数据,一个不得不提到的名字是Leo Levin。
相信大多数人之前应该从未听说过Leo,但正是因为他,网球界才有了制胜分、非受迫性失误这些耳熟能详的术语。
在上世纪八十年代,Leo在大学做网球教练助理(Coaching Aid)的时候开发了第一个基于计算机的网球数据统计系统并第一个提出了非受迫性失误这个概念。
在Leo的定义中,网球比赛每一分正常的结束只有3种得分种类:制胜分(Winner)、受迫性失误和非受迫性失误。而将失误(Error)分类成受迫性(Forced)和非受迫性(Unforced)的目的在于了解到底谁更应该为这个失误负责——是由于对手打得太有进攻性(Aggressive)导致了受迫性的失误,还是击球的球员自己犯错导致了丢分?
举个简单的例子,所有的Ace球全部都是制胜分,而所有的双误全部都属于非受迫性失误。
但这还不是二级数据统计的全部。
比赛现场如何进行数据统计
上图是2012年法网男单决赛后,IBM生成的详细数据统计报告(Detailed Statistics Report)。从这里,我们可以看出,现场统计的数据信息包括:
发球球员(R.N.)
一发和二发的发球时速、发球方向、状态(182, Center, Fault)
接发球的正反手、击球类型、状态(FH, G, In Play)
有效击球拍数(5)
最后一分描述(N.D., BH, G, Forced)
最后一球时,两方选手的位置(Both Backcourt)
此球结束后的比分(15-0)
让我们以第4盘第11局(Set 4:Game 11)的第1球为例,来了解一下这些统计信息的具体含义。
首先,每局开始的第一条信息都注明了这一盘是由谁来发球。第4盘的第11局是纳达尔在局分进行到5:5时开始发球(R.Nadal Serving at 5-5)。
纳达尔的一发发向了内角(Center),球速是182公里/小时,发球失误(Fault)。他的二发是一个追身球(Body),球速是151公里/小时,球在界内(In Play)。德约科维奇通过正手(FH = Forehand)底线抽球(G = Ground Stroke)打回这一球,球在界内(In Play)。这一球一共进行了5拍,德约科维奇由于反手底线抽球的受迫性失误丢掉该分(N.D., BH, G, Forced = Novak Djokovic losses the point with a backhand ground stroke forced error)。 在最后一次击球时,双方都在底线(Both Backcourt)。
而在比赛中,球员所打的每一分都通过这样的方式被详细的记录了下来,之后通过一系列的计算,IBM生成了如下的每盘数据统计汇总表:
而这些全面而又详实的数据可以让球员和记者都更加了解到在一场比赛中,某位球员的表现如何。例如:网前得分率、每盘的制胜分/非受迫性失误的次数、最快/平均发球时速等等。
二级数据中包括了更多主观性很强的统计数据。鉴于这些数据可以为球员、观众和媒体提供更多更有价值的信息,所以赛事会安排专门的数据统计人员来完成此项工作。所有负责数据统计的统计员都会经过严格的培训,按照统一的标准来记录比赛中球员的表现。
在美网,IBM为主裁判特别开发了一个在PDA上的专用应用程序来记录比分。这个程序已经按照网球比赛的规则预先设定好,在比赛过程中,主裁判只需要根据情况进行操作,而PDA通过有线网络将所有记录的数据传输回IBM在阿瑟阿什球场下的数据中心,之后数据中心将根据需要将这些传送到现场的记分屏、信息屏、闭路电视、网站等不同渠道, 将比分呈现在观众的面前。
而IBM也与Leo和他的团队一起研发了更为复杂的软件,用于记录二级数据统计。在每一场需要统计的比赛中,美网都会安排两个专人负责这个统计的工作,其中一个人负责操控雷达记录球速,而另一个人负责观察并记录每一分的详细情况。而所有的这些信息也会和主裁判所收集的信息一样,传送回数据中心,之后发布给全世界。
由于二级数据统计需要赛事在人力和资源上都有不小的投入,因此绝大部分赛事只会在个别球场进行这项工作。而中国网球公开赛是目前为数不多的在全部比赛球场都进行二级数据统计的赛事。可以看出,中网是非常重视数据工作的,也希望可以为球员、媒体和观众带来更好的观赛体验。
从数据统计到商业洞察力,比赛原来还能这样看
尽管二级数据统计在内容的丰富性上更近了一步,但是这些数据并没有经过非常系统的分析和处理,通过这些数据得到的结论也相对简单。而美网和其他大满贯赛事则在这方面领先一步,它们与IBM一起合作,在过去8年的时间里,一共收集了4100万个数据点,并于2012年推出了一个新的数据展示内容:制胜关键指标(Key's to the Match)。
Key's to the Match其实就是球员获胜的关键业绩指标(KPI)。IBM使用其SPSS软件,利用数据挖掘技术和统计原理,总共生成了45个对于球员表现至关重要的指标。在每场比赛前,IBM都会根据球员的历史表现、利用SPSS的预测引擎、根据多种情景来选择3个对球员获胜最为关键的指标。
以今年美网1/4决赛威廉姆斯姐妹的交锋为例,小威(蓝)的三个制胜关键指标分别是:
一发得分率超过72%(当这个指标达成时,小威赢得这一盘的概率是86%);
赢得超过48%的5-8拍的对打回合(当这个指标达成时,小威赢得这一盘的概率是88%);
接一发球得分率超过34%(当这个指标达成时,小威赢得这一盘的概率是82%)
而大威(黄)的制胜关键指标是:
赢得超过56%的5-8拍的对打回合(当这个指标达成时,大威赢得这一盘的概率是76%);
一发得分率超过66%(当这个指标达成时,大威赢得这一盘的概率是60%);
发球局的平均长度小于6.2分(网球一局比赛为4分,当大威的发球局分数小于6.2分时,她赢得这一盘的概率是45%)
而通过上图,我们可以一目了然的看到两人在每一盘是否达成了自己的制胜关键指标。这种数据可视化的效果对球迷的观赛体验也会有极大的提升,他们完全可以通过观察这些更为有趣的数据来进一步了解比赛,也更好的知道比赛的看点如何。电视评论员在解说时,也更容易找到需要观察的重点,并因此引导观众观赛。
当然,制胜关键指标也会有失灵的时候。这是因为,有些排名偏低的球员并没有足够多的数据源来支持他们对应指标的生成,而信度会随着数据量的增加而迅速获得提升。就像你扔硬币一样,可能刚开始的10次,硬币会有3次正面和7次背面。而当你把扔硬币的次数提升到100次或1000次时,正面和背面的次数都会非常接近50%。
此外,制胜关键指标所依赖的数据依然是和比赛本身密切相关的技术统计,并没有包括球员心理因素对比赛所造成的影响。
以今年美网小威廉姆斯对文奇的女子单打半决赛为例,可以看到小威明显比文奇更好地完成了自己的制胜关键指标,但是她却输掉了比赛。
而整场比赛的数据统计也看不出小威的表现处于下风,在总得分方面,她甚至还以93:85领先于文奇。而当你看到两人破发得分率的情况时,你会发现:
文奇在第二盘拿到了6个破发点,但只成功兑现了1个,而小威只拿到两个破发点,没有成功破发。而在第三盘,文奇将仅有的两个破发点全部兑现,而小威只把握住了4个破发点中的1个。
所以,可以说小威这场比赛的全场表现都极其优秀,而她只是在关键分的处理上没能很好的把握机会,因此输掉了这场比赛。
和27年前格拉芙实现年度金满贯伟业时相比,现在的小威在社交媒体如此发达的今天所承受的关注和压力都比当年的格拉芙要多得多。再加上主场作战,我们可以想象,小威心理上所面临的压力将会是所有人都难以承受的。所以尽管在数据方面几乎完全不落下风,但她还是没能赢下比赛。
让我们把话题继续回到数据是如何提升我们的观赛体验的。在2013年,IBM在美网所推出的另外一项功能是态势分析(Momentum)。
这应该是我最喜欢的功能之一。通过这个态势分析,我们可以实时的看到对阵双方在比赛时谁更占据整场比赛的优势,其领先的幅度有多大等等。而且你还可以点击所有的关键得分环节,来了解球员在某一分时是如何赢得/输掉这一分的。这种互动体验也会让球迷更直观的了解比赛的走势,更好地理解比赛。
而从2013年8月开始,国际女子网球协会(WTA)和SAP签约,请SAP为WTA提供更多比赛数据的分析服务,以帮助球员更好地了解其比赛的状态。而鹰眼等其他网球赛场上的技术也都让比赛变得和原来大不一样。
相信读完这篇文章,你应该对网球比赛的数据统计有了一个更细的了解以及更深的认识。从基础的一级数据,到二级数据,到更为复杂的获胜关键指标及态势分析,数据能带来的洞察力远比你想象中的要多得多。
(本文已被浏览 537 次)
|
|
|