根治收视率造假！广电总局试运行收视综合评价大数据体系

2018-12-26 16:20 人民日报阅读 (137710) 扫描到手机

12月26日，由国家广电总局委托广播电视规划院基于自主技术建设的“收视综合评价大数据体系”正式开通试运行。不同于传统的基于在样本户基础上的收视率统计方式，这个“全网络、全样本、大数据、云计算”的节目收视综合评价体系，不仅更适用于当前电视节目观看方式多渠道、多样化的新趋势，而且通过数据抗污染能力的提高，有望从根本上治理收视率造假问题。可以说，新体系的运用是对收视数据采集和应用的一次重大革新。面向未来，它的运行也为收视数据的统计和应用提供了更丰富的可能性。

大数据、云计算，超规模海量信息精准到户

2018年，国家广电总局组织广播电视规划院等十余家单位完成了涵盖有线电视、IPTV、互联网电视的千万级样本规模收视调查技术实验。截至2018年底，收视综合评价大数据体系汇聚了来自不同地域的2254万有线电视用户和1969万IPTV用户收视数据。

以实时回传的海量数据采集模式优势明显，与在我国实施多年的传统样本户数据采集模式形成了巨大差距，极大地弥补了传统数据采集方式存在的不足。

据国家广电总局科技委副主任杜百川介绍，传统的样本户采集方式主要是采用目前世界上最为普遍的两种方式——日记卡和收视率测量仪。日记卡是由样本户填写收视日记卡，调查员每周一次上门采集数据进行统计。相较前者而言，较为准确的是通过收视率测量仪进行采集。测量仪类似电视机机顶盒，同时为家庭成员配有遥控器。样本户家庭成员在收看电视时，分别按下代表个人信息的代码键，该频道停留一定时间长度，收视数据就会被记录。调查公司每天通过电话自动回传收集收视率数据，并分门别类型进行统计、归纳。

然而，不论采取日记卡还是收视率测量仪进行的统计，样本户的规模都非常有限，在收视人口总量中占比较低，这也在很大程度上削弱了收视率数据的代表性和可信度。例如，以传统的样本户统计方式来计算，某城市500万用户，如果从中抽样选取500个样本用户，那么这500个样本户没有看过的节目均会被统计为“零收视”；而在新体系的全量样本统计中，即使千分之一的低收视率也对应着平均每分钟5000个收视用户。

杜百川认为，随着科技发展和观众收看节目方式的多样化，原有的样本户采集方式不仅样本户规模有限，而且在统计渠道和方式上也已经不再适应新形势的需要。“很长一段时间以来，网络平台对用户的了解比广播电视系统多得多。之所以形成这样的局面，并不是因为广电系统掌握的数据不够多。机顶盒双向化后，其实我们掌握数据并不比网络平台少，但问题在于一直没有很好地利用这些数据。如何用好这些数据，是新体系着重解决的问题。

他指出，当前，观众观看电视节目的方式呈现出多样化的新趋势：一是跨设备，观众不仅用电视机观看节目，还通过PC机、手机、平板电脑观看；二是跨平台，观众不仅通过地面广播电视系统观看节目，还通过有线电视、卫星电视、IPTV、移动电视、网络电视等多种渠道观看；三是跨时空，观众收看节目不再是固定时间固定地点观看，还可以实现移动时间和移动空间观看；四是跨形态，观众不仅可以进行实时观看，还可以通过点播、回放等形式实现看时间的转移。

这样的趋势下，新体系基于大数据、云计算技术，实时统计全量样本收视数据，分析颗粒度准确到户，既可以反映热门节目、黄金时段的收视情况，又可以精准捕捉小众节目、边缘时段的收视特征，全面还原多元化的收视需求。

据国家广电总局广播电视规划院院长余英介绍，系统初期已汇集超过4000万有线电视和IPTV样本用户收视数据、全面涵盖直播、回看、点播等多种收视方式的基础上，未来将逐步扩展至数亿级样本规模，实现样本全覆盖。超大规模海量数据将深度反映用户对广播电视节目收视内容和收视方式的多元化需求。

防操纵、抗污染，根本治理收视造假

收视统计和分析的基础是数据真实，然而在过去很长一段时间，收视率造假已经成为电视行业深恶痛绝却难以根除的现象，进而引起了社会各界的关注。

按照国际惯例，在传统的样本户统计方法中，为了避免电视台、电视节目制作机构、广告商等买通样本户，对收视率数据进行造假，样本户的姓名、身份、地址等信息都被严格保密。《中国电视收视率调查准则》也规定，调查机构在确定样本户时，必须与样本户签订保密协议。但中国电视剧制作产业协会秘书长王鹏举认为，虽然样本户调查是基于统计学的科学方法，然而由于其样本户数量小、分布不均匀，则为收视率造假提供了很大的技术漏洞，直接导致了收视率数据抗干扰能力弱，污染成本低。

据了解，国内现有的样本户统计方式按地域分层将收视率统计目标分为35城、52城、70余城和全国数据几个层级。这些数据的分层主要是应广告商要求而形成的。比如时尚类广告商主要集中在以35城为代表的大城市投放广告，这其中主要包括各省会城市和计划单列市，由于这些城市人群普遍消费能力较其他地区更高，也就在一定程度上造成了35城数据污染最严重的现状，最直接的表现就是35城数据往往与全国数据不匹配。

“收视率造假的问题多年未解，已经变成资本生产链。广告收入是电视台的主要收入来源，而收视率则是广告商投放广告的主要依据。收视率数据常常会经过几道手的'转换'，电视台和出品方在利益趋使下迫于买卖，动辄花费千万元。即使样本户会按照一定周期进行更换，但新的样本户名单也很可能会被造假者掌握。而且由于没有具体的法律明文规定，这样的造假行为也无法得到严惩。”中国电视剧制作产业协会会长尤小刚说。

据了解，收视率造假的主要方式是直接污染样本户。造假者通过和样本户形成“关系”，指定其观看某个节目，造假难度低。“比如北京有700多户样本户，造假者只要买通十几个用户，就能造成收视率1%的波动。从而造成劣币驱逐良币的态势，让大家误以为节目的品质高低无所谓，‘制造’多少收视率才是关键。最明显的现象就是有的剧二轮播出的收视率都比一些优秀剧作一轮播出的数据还高。这样一来，电视节目创作失去了应有的评判标准，进而误导了创作方向，劣币驱逐良币，给产业发展带来负面影响。”王鹏举说。

与样本户统计方法相比，新系统的大数据统计方式显然更为科学。系统数据采集、清洗、分析、呈现各环节无缝衔接，全流程自动化、封闭化处理，防范人为操纵，大大提高了数据污染的成本。系统基于海量大数据统计，个体样本数据污染对统计结果的影响几乎可以忽略不计。

余英指出，在传统统计方法中，一个样本对绝对指标的影响很大。她举例说，对于500万用户的某城市，如果针对某节目污染500个抽样中的5个样本用户数据，该节目的收视率可提升或降低1%。如果该节目的真实收视率为2%，统计偏差可达50%。但对于新系统而言，这种情况仅会对该节目的收视率影响百万分之一。“而且新体系由政府主导，广电总局指导和监管运营，这也在更大程度上保证了数据的客观公正。与此同时，总局也正在为相应法律法规的健全进行部署。”

“只有建立在真实数据基础上的分析和判断才是真实的，这直接影响到行业和社会对电视节目的综合评价。在真实的数据面前，如果一个节目的收视率不高，创作者就可以进行更多更深入的客观分析，进而在创作中改进。”电视剧导演郭靖宇说，“新体系给了电视行业工作者信心和希望，大家都期待它彻底根除行业中存在的不正之风。”

多维度、全方位，畅想科技应用更广阔的未来

据了解，新体系将适应媒体融合发展和传播格局、传播环境的新变化，持续丰富电视收视数据来源，不仅全面覆盖到有线电视、卫星直播、IPTV、互联网电视以及网络视听领域等不同传播渠道，还提前预设了全国有线电视网络整合和5G移动应用大趋势下的新定位、新模型。

余英介绍，新体系既能提供客观真实的收视数据统计，还将以此为基础结合思想性、创新性、专业性等节目品质元素，引入舆情监测、专家评价等因素，对节目传播力、引导力、影响力、公信力等多维度建模分析，构建全方位的节目综合评价模型，推动电视节目综合评价体系的健全。通过对收视数据深度挖掘、及时反馈，指导内容选题、素材集成、需求组合、分析预测、创作生产，转变传统节目生产方式，有效引导行业健康发展。

“新体系不再像传统统计方法那样只按地域分层，也不再是进行收视率和市场份额统计，而是采用全量样本，集合了绝对用户数量、绝对收视时长、跨不同网络收视等的综合数据。如果一个用户家里又有电视又有电脑，同时还有手机和平板电脑，通过这些终端进行的实时观看、回放、点播等方式的收视情况都会被记录和回传。”余英说。

在杜百川看来，基于新体系的人工智能应用也不再遥远。“过去人们认为数据多就是大数据，其实并不是这样，大数据是以互相关联的种种因素去了解和分析数据。”杜百川说，“正是在这个基础上，新体系对新技术的应用能力比传统的统计方式提高了很多。现在是我们看电视，将来可能是电视看我们。未来，新技术可能将眼球跟踪技术应用其中，进而获取象相级的精准素级，声音控制数据也可能得到更好的利用。这不仅让我们更有理由去畅想它将在未来为我们开拓的图景和更多可能性，也是新体系具有的更重大的意义。”

声明：该文观点仅代表作者本人，目击号系信息发布平台，半岛网仅提供信息存储空间服务。