王燃：大数据时代海量数据的多元化证明机制研究

admin 2025-12-31 63

（感谢北京书法家协会理事，北京丰台区书法家协会主席团成员、副秘书长，民盟中央教育委员会委员韩国强题字）

王燃|天津大学法学院副教授，计算法学学科负责人，天津大学中国智慧法治研究院研究员；北京东卫(天津)律师事务所兼职律师；中国人民大学法学博士；加州大学伯克利分校访问学者。

主要从事大数据、人工智能与司法及证据法学研究。就“大数据侦查”“大数据证据”“智慧司法”“电子文件与电子数据”等主题形成体系化研究。代表作《大数据侦查》(专著)获第一届“中国网络法学优秀成果奖”一等奖，并在中国大陆及台湾地区出版。

“大数据时代侦查模式的变革及其法律问题研究”获2016中国法学会“第十一届中国法学青年论坛”一等奖。“大数据时代检察机关遇到的挑战与应对”获最高检检察长批示并印发全国检察机关学习。LegalTechnologyinContemporaryUSAandChina发表于期刊ComputerLawSecurityReview(SSCI法学一区，独著)，并获得美国“GovernanceofEmergingTechnologiesScience”国际会议二等奖。“电子文件管理与证据法规则的契合研究”被《中国人民大学复印报刊资料.档案学》全文转载。

主持并参与国家社科基金项目(大数据证据研究)、中国法学会(大数据时代公共机构的数据开放及其法律问题研究)、天津市档案局(电子档案的法律问题研究)、最高检重点课题(大数据的运用与检察工作创新)等十余项课题。

主讲“证据法学”“刑事诉讼法学”“大数据调查方法”等课程，获天津大学“沈志康奖教金”“北洋青年骨干教师”称号。

发表于《中国刑事法杂志》2022年第3期，注释见杂志原文。

大数据时代海量数据的多元化证明机制研究

摘要将海量数据作为罪量是我国网络犯罪立法特色。实践中，海量数据的准确计算一直是证明难题。对此，“综合认定”“推定”“抽样”“等约计量”“底线证明”等方法应运而生。然而，上述方法是在证明资源有限性条件下的权宜之计，未从根本上解决海量数据的真实性证明难题。

可根据数据描述对象及生成机制对其进行多元化区分，分析不同类型的海量数据证明困境症结点，针对性构建多元化证明机制。对于身份类静态数据的重复性、无效性，可以通过去重、抽样方法认定其真实数量；对于作品类静态数据的混杂性，可以通过专业鉴定方法来解决；对于动态行为数据的重复性、虚假性，可借助算法来识别。

另外，既有的推定、证明责任分配等规则亦应当进行适当调整，与上述证明方法配套运行。

关键词海量数据网络犯罪电子数据抽样证明个人信息

一、问题的提出：海量数据的证明困境

实际上，将“罪量”作为犯罪构成要件是我国刑事立法的特色，特定数量作为罪量的立法方式并非网络时代原创。罪量是指在具备犯罪构成本体要件的前提下，表明行为的法益侵犯程度的数量要件。传统的罪量主要体现为“数额”，在以数额较大作为罪量要素的情况下，没有达到数额较大的标准就不构成犯罪。具体包括违法所得数额、违法经营数额以及特定数额等。

表1“海量数据”相关司法解释及证据表现形式

犯罪类型

司法解释名称

海量数据种类

传播淫秽物品类犯罪

《最高人民法院、最高人民检察院关于办理利用互联网、移动通讯终端、声讯台制作、复制、出版、贩卖、传播淫秽电子信息刑事案件具体应用法律若干问题的解释(二)》法释[2010]3号

2.电子刊物、图片、文章件数

4.注册会员数

5.广告条数

网络赌博类犯罪

《最高人民法院、最高人民检察院、公安部关于关于办理网络赌博犯罪案件适用法律若干问题的意见》公通字[2010]40号

1.参赌人数（会员账号数）

2.投放广告条数

侵犯知识产权类犯罪

《最高人民法院、最高人民检察院、公安部关于办理侵犯知识产权刑事案件适用法律若干问题的意见》法释[2011]3号

1.作品的数量

3.注册会员数

危害计算机信息系统安全类犯罪

《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》法释[2011]19号

身份认证信息组数

网络诽谤类犯罪

《最高人民法院、最高人民检察院关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》法释[2013]21号

1.实际被点击

2.浏览次数

3.转发次数

网络诈骗类犯罪

《最高人民法院、最高人民检察院、公安部关于办理电信网络诈骗等刑事案件适用法律若干问题的意见》法发[2016]32号

1.信息条数

2.拨打电话次数

3.页面浏览量数

侵犯公民个人信息类犯罪

《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》法释[2017]10号

公民个人信息条数

非法利用信息网络、帮助信息网络类犯罪

《最高人民法院、最高人民检察院关于办理非法利用信息网络、帮助信息网络犯罪活动等刑事案件适用法律若干问题的解释》法释[2019]15号

2.群组成员账号数、通讯群组数

5.用户个人信息条数

6.发布信息数

上述海量数据罪量不仅仅是定罪要件，往往也是法定刑加重要件。实体法将海量数据作为定罪量刑门槛的规定，直接导致其在司法实践中成为一类重要的新形态证据，本文将之称为“海量数据证据”。

一方面，海量数据证据形式上以电子化为主，因其依托网络环境而形成，因而大都以电子证据为载体；另一方面，源于网络犯罪对象的海量化，海量数据在数量集上呈现海量化特征。相比于传统犯罪，网络犯罪由于虚拟空间的无边界性、网络技术手段的便捷性，犯罪对象动辄达到成千上万量级。

尽管司法解释规定的标准往往限定在五百、五千、一万等门槛，但司法实践中查处的海量数据证据往往远远突破法定门槛。如2017年最高人民检察院发布的六起侵犯公民个人信息典型案例中，作为证据的个人信息分别达到了“30万余条”“12503条”“12555条”“185203条”和“10万余条”等。

然而，数据的海量性以及网络环境所带来的技术壁垒，却导致海量数据的证明成为司法实践中难题，突出体现在其证据的“真实性”，即如何准确计算海量数据的“量”。

针对海量数据的证明困境，司法实践中出现了“综合认定”“推定”“抽样”等方法，理论界提出“等约计量”“底线证明”等方法。这些方法主要是通过降低证明标准、转移证明责任或是采取非证据证明方法来解决证明困境，是在证明资源有限性条件下的权宜之计。虽一定程度上可化解海量数据证明困境，但均未从根本上去直面其真实性难题。

本文通过对大量司法案例的观察，对海量数据进行类型化区分，并探究不同类型数据的真实性困境及证明规律，在此基础上构建多元化证明机制，以期帮助司法办案人员掌握海量数据证据的运用规律。

二、海量数据现有证明方案评析

关于海量数据的证明，目前实务界和理论界的一个共识是不再适用传统的印证证明。印证是我国刑事司法实践中遵循的证明模式，是指两个以上的证据在所包含的事实信息方面发生了完全重合或部分交叉，使得一个证据的真实性得到了其他证据的验证。

由此，综合认定、底线证明、等约计量等方法应运而生。本文拟对现有证明方案进行评述并指出问题所在。

（一）实践中海量数据证明方案

1.“综合认定”方法

“综合认定”是由官方司法解释所确立的一种“便宜式”证明方法，也是当前最主流的海量数据认定方法。例如电信网络诈骗案件中，可根据经查证属实的日拨打人次数、日发送信息条数，结合犯罪嫌疑人、被告人实施犯罪的时间及犯罪嫌疑人、被告人的供述等相关证据，综合认定拨打电话次数、发送信息条数；可以结合已收集的被害人陈述，以及经查证属实的银行账户交易记录、第三方支付结算账户交易记录、通话记录、电子数据等证据，综合认定被害人人数及诈骗资金数额等犯罪事实。

非法集资刑事案件中，可结合已收集的集资参与人的言词证据和依法收集并查证属实的书面合同、银行账户交易记录、会计凭证及会计账簿、资金收付凭证、审计报告、互联网电子数据等证据，综合认定非法集资对象人数和吸收资金数额等犯罪事实。在此基础上，2021年《人民检察院办理网络犯罪案件规定》第21条对“综合认定”进行了统一规定。

根据上述司法解释对“综合认定”的规定，可看出其本质上仍然是一种印证方法，即根据言词证据、记录海量数据的电子证据及书证等进行“概括印证”。“综合认定”比传统的逐一印证要求低，在整体数量上得到印证即可。

然而，实践中究竟如何进行“综合认定”？最高检第67号指导案例“张凯闵等52人电信网络诈骗案”给出了运用思路：网络电话、Skype聊天记录等与被害人陈述的诈骗电话号码、银行账号等证据相互印证；电子数据中的聊天时间、通话时间与银行交易记录中的转账时间相互印证；被害人陈述的被骗经过与被告人供述的诈骗方式相互印证。本案的75名被害人被骗的证据均满足上述印证关系。

上述最高检指导案例中“综合认定”方法的运用是一种较为理想的状态。然而，因该规则缺乏可操作性，理论及实践中难以就此形成共识，容易导致“规则虚置”。司法实践中“综合认定”的运用还容易被异化，出现降格运用、笼统印证的情形。常见情形是仅根据案件当事人的言词证据和记载海量数据的电子证据相印证，即进行海量数据的认定。

实际上，由于数据的海量性，大部分被告人对于数据量记忆并不清晰，若电子证据取证不规范或者认定有误，则该种“笼统印证”反倒强化了错误事实的认定。例如在笔者参与的一起侵犯公民个人信息案件中，就个人信息条数的认定，司法机关电子证据取证及计数方式存疑，当事人口供不稳定、记忆不清。然而司法机关仅笼统认为当事人口供的数目和电子证据表面所呈现的个人信息数量能相互印证，且数量达到“情节特别严重”情形。这显然是对“综合认定”的错误运用。

2.推定方法

推定是一种非证据证明的方法，是证明困境下的替代性证明方法。推定的逻辑是根据“基础事实A”直接认定“推定事实B”，而省去了从A到B的中间推理环节。面对海量数据的证明难题，也有司法解释规定了推定的方法。

例如《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第11条规定，对批量公民个人信息的条数，根据查获的数量直接认定，但是有证据证明信息不真实或者重复的除外。

该规定实际上就是一种推定，基础事实是直接查获的公民个人信息条数，推定事实是真实的涉案个人信息条数。需要注意的是，推定一般是可以被推翻的，只要有证据证明直接查获数量中有不真实、重复的数据，就可以予以排除。根据举证责任分配一般规则，被告积极的辩解由辩方承担举证责任，证明数据不实或重复的证明任务需要由辩方承担。

此规定几乎成为司法机关办理侵犯公民个人信息等类型案件的金科玉律，因为其大大减轻了控方证明责任，将个人信息条数的证明负担转嫁至辩方。然而，辩方很难具备相应的专业技术能力来证明数据不实。实践中，很多辩方都对海量数据的真实性提出了质疑，但是由于未能进一步提供证据证明，其辩解不被法院采纳。

由此可见，推定方法减轻了控方举证责任，却无形中加重了辩方的证明责任。辩方需要证明数据的重复、无效或不真实，并且要达到较高的证明标准。

3.抽样方法

抽样原本是统计学的一种方法。抽样调查，是指从研究对象的整体中选出一部分代表加以调查研究，然后用所得结果推论和说明总体的特征。抽样也被司法机关用于海量数据证明，主要用来核实网络犯罪案件中海量公民个人信息、身份认证等信息的真实性。

司法机关从海量数据中抽取少量样本数据，核实其有效性比例，并据此计算出整体有效数据。例如在“许旋、张友刚侵犯公民个人信息罪”一审中，辩护人申请对指控的60万条个人信息进行抽样检测，公安机关随机抽样调查100条数据核实后发现，真实有效数据为90条。据此认定信息有效性达百分之九十，非法获取公民个人信息数量达5万条以上，属于情节特别严重。

抽样虽一定程度上可缓解海量数据证明困境，但抽样方法的适用存在一定乱象，突出体现为样本选择的随意性。如上述案例中，仅表述从U盘文件夹中随机抽样调查100条公民个人信息，但未言明具体采用的抽样方法。抽样是一种统计学方法，讲究抽样方法的科学性、抽样对象的同质性及抽样数量的比例要求。为保证样本的代表性，需遵循随机原则的概率抽样方法，并由此计算估计样本与总体间误差的大小以及这种估计的可信程度。

（二）理论界海量数据证明方案

除了司法实践中方案探索外，理论界也提出等约计量、底线证明等方法。

等约计量方法与传统的人工精准计量方法相对，是指按照大约等于的方式，对网络犯罪中的数额加以计量。提出者认为司法实践已经按照“等约计量”方式，对海量化的犯罪对象进行“估堆式”计量，目前的淫秽电子信息、公民个人信息以及“伪基站”发送的短信计量方式来看，实际上运用的均是“等约计量”方式。然而，对于如何具体运用等约计量方法，并未给出具体路径。还有学者认为该方法降低了刑事诉讼证明标准，将其演变为“基本事实清楚、基本证据充分”。

底线证明方法是指按照法定的入罪和加重处罚的两道坎，提供用以定案的最基本证据，即只要法定的“10+”“500+”“5000+”“10000+”等法定的“门槛”数量得以证实，即完成证明任务。然而该方案仍然无法实质性解决海量数据证明难题，其对数据规模有一定要求，并非所有此类案件都能适用。正如有学者指出我国网络犯罪具有小额多笔特征，该方案无法解决“小成本、多笔数、大收益”的中国特有问题。

还有学者提出“数据中心主义”方法，认为“综合认定”是工业时代从“人证中心主义”转向到信息时代“数据中心主义”的结果，客观性更强的电子数据本身就是对事实的证明，分析数据本身就可以认定数额，无须寻找其他证据加以印证。“综合认定”允许降低证明标准，不要求每一条信息与被害人印证，达到优势证明标准即可。

综上所述，实务界和理论界都针对海量数据证明困境提出了不同的对策，但仍无法有效解决该问题。“综合认定法”“等约计量法”实质上降低了证明标准；“推定”则采取了非证据证明的替代方法；“抽样法”虽一定程度上触及海量数据真实性问题，但严格来说仅能解决样本真实性问题，无法涵盖所有数据。作为解决人类司法证明难题的消减证明负担措施，上述方法无可厚非，且均发挥了一定的司法实务指导作用。

然而，上述方法均是从侧面去寻求解决之道，试图通过某一方法即全面解决海量数据真实性难题，陷入了一元化的思维范式。若要从根本上解决此问题，恐怕仍需回归海量数据本身，通过对数据特征的观察，探究其证据特点和运用规律。

三、海量数据的多元化区分及其证明困境

海量数据作为网络犯罪的罪量要素，本质上是对犯罪行为“量”的描述，其认定的关键在于对犯罪行为的量化统计是否准确。纵观既有的证明方案，均是将海量数据视为一类整体证据类型去研究，没有任何一种方案能够准确计算其罪量。因而只能退而求其次去降低证明标准、消减证明负担。

进一步分析，现有方案实际忽视了对“海量数据”这一对象本身的审视和观察。传统证据法历来将证据分为不同的法定及学理种类，其目的就在于研究不同类别证据的证明能力及证明力规则，探究运用各类证据的客观规律，指导公安司法人员更有针对性地收集、审查、判断证据，保证办案质量。

海量数据作为一种统称的证据形态，在网络犯罪日趋复杂的形势下，实则包涵丰富的数据类型并呈现出多元化特征。正因为缺乏对海量数据本身的类型化研究及其证明规律的归纳，才导致现有证明方案陷入僵局。

本文在实践案例观察基础上，结合数据本身技术特征，对海量数据进行类型化区分，归纳各类海量数据的证明困境并提出针对性解决方案。意在打破目前一元论证明僵局，寻求海量数据多元化证明路径，为司法人员办理网络犯罪提供可操性指导。

具体而言，静态数据真实性主要审查数据是否如实反映了客体的情况，其中身份类数据侧重于审查数据是否重复、是否有效，而作品类数据则侧重于对混杂性信息的排除。动态数据真实性则主要审查数据背后是否对应有物理空间真实的、具备刑法评价意义的实质行为，其证明困境集中体现为机器或人为造假行为所产生的虚假数据。

（一）静态数据及其真实性困境

1.身份类数据的真实性认定困境

身份类数据的真实性主要在于数据所反映的信息与客体本身是否一致，以及是否有重复计算的情况，其证明困境主要体现在数据重复性及无效性。

（1）身份类数据的重复性

重复性是指海量数据中具有多条同一主体的信息并对其进行重复计算，常见的有公民个人信息及网络账号的重复计算。

公民个人信息的重复。在侵犯公民个人信息类案件中，个人信息条数的重复往往是一个重要争议焦点。例如针对同一对象并存“姓名+身份证号”“姓名+住址”“姓名+电话号码”等情形。按规定，一位公民的信息应当计算为一条，不应重复、多次计算，特别是当数据量大时，信息的重复计算会严重影响定罪量刑。

实践中，相当一部分司法机关直接按照查获的数据量进行认定，不会主动进行去重。如在“胡某甲、张某等侵犯公民个人信息案”中，张某辩护人提出，原判认定的公民个人信息9800万余条中90%都是重复的，要求重新勘验。然而二审法院则简单认定9800万余条个人信息数有公安机关依法制作的勘验笔录、张某使用的个人电脑、U盘等证据证实，并未进行去重操作。然而，也有部分司法机关会主动进行信息去重处理，例如在“张峰、李志高侵犯公民个人信息罪，谈瑞侵犯公民个人信息罪、诈骗罪”一案中，公诉机关指控张峰非法获取公民个人信息1156万余条，法院查明其中有大量重复的信息，经去重整理后认定为600余万条。

网络账号的重复。在网络赌博和淫秽物品传播等犯罪中，“参赌人数”和“注册会员数”等网络账号是定罪量刑的重要依据。网络账号体现了虚拟空间的身份信息。空间的虚拟性带来身份信息认定难题，因为经常出现一人注册多账号情形。如果仅仅对网络账号进行统计，就有可能造成实际涉案人数的重复计算。

如“黄贤文传播淫秽物品牟利罪”一案中，辩护人提出存在会员多次和重复注册的情况，公诉机关指控的46784名会员数是会员注册次数，不能直接认定为网站的真实会员数。上述辩护意见被法院采纳。网络空间身份信息的重复性主要体现在虚拟空间的数据重复，即一人多账号的情形，应当结合后台的注册用户实名信息，对重复网络账号进行识别和删除。

（2）身份类数据的无效性

身份类数据的无效性主要指个人信息中出现错误或无效的信息，如某些案件“公民个人信息包”中姓名与电话号码、住宅并不匹配，电话号码错误、空号，或者是匿名化个人信息。

该类“虚假”信息不符合侵犯公民个人信息罪中关于信息“可识别性”的要求，不具备刑法评价的实质基础，不能达到罪责刑相适应要求。例如在“张会超侵犯公民个人信息罪”一案中，公诉机关指控被告人发送给常某的公民个人信息共计100万余条。被告人则提出其中包含大量无效信息、捏造的不实信息，如手机号码为空号或停机，姓名栏为某先生、某女士，地址栏为某省、某市等，前述信息均应予以剔除，有效信息条数应在5万条以下。虽然该案中法院没有采纳当事人辩解，但该案反映了目前侵犯公民个人信息案件中普遍存在的信息无效、信息不实的证明困境。

2.作品类数据的真实性认定困境

（2）知识产权侵权作品混杂在合法授权作品、无效作品中。如在“孙强、成都五二天科技有限公司侵犯著作权罪”一案中，一审法院认定侵权作品数量为8449个。二审经重新鉴定后，认定其中已授权漫画210部，“空漫画”548部，无法查询到标题及作者的106部，并将相关数据进行剔除。该案中，一审法院所认定的侵权作品数量明显具有混杂性，二审则将无效作品、合法授权作品进行排除。

（二）动态数据及其真实性困境

1.行为数据的重复性

2.行为数据的重复性

在“肖加木、李荣贤、杨奇坤开设赌场罪”一案中，控辩双方就参赌人数产生争议。辩方提出涉案微信群内存在着一些没有互动能力、以沉默为表现形式，在赌博群内虽在线却不参与投注，只围观、凑人数、增人气的恶意注册用户（网称僵尸粉），以及利用注册的小号虚假投注而不结算实际输赢的“托”，该部分应予剔除。对此，公安机关予以认可并进行了相应扣除。

综上所述，动态行为数据的重复性及虚假性困境，均根源于物理空间与虚拟空间的区隔性。由于双层空间区隔所造成的机器计数规则僵化，即机器不具备“主观评价”功能，无法识别数据背后所对应的实际行为、行为产生者及其意图，从而将不具备刑法评价意义的虚假、重复行为数据统计在内，不符合罪刑相一致原则。

四、海量数据多元化证明机制的构建

对海量数据进行多元化区分的意义在于探究不同类型数据的证据特征和运用规律，发现其证明困境的症结点，从而有针对性构建不同的证明机制，并指导公安司法人员掌握其证据运用规则。

具体而言，对于身份类静态数据的重复性、无效性问题，可构建以去重、抽样方法为主的证明机制；对于作品类静态数据的混杂性问题，可构建以专业鉴定为主的证明机制；对于动态行为数据的重复性、虚假性等问题，可构建以智能算法识别为主的证明机制。

另外，司法实践中既有的推定、证明责任分配等规则亦应当进行适当调整，与上述证明方法配套运用。

（一）静态身份类数据的证明机制构建

静态身份类数据的证明困境主要体现在重复性和无效性，前者是指同一主体信息的多次重复计算，后者是指由于信息的空缺、无效而无法识别到个人。前者可采取技术去重的方法，后者可通过科学抽样方法来核实信息的有效性。

1.去重的方法

对身份类、账号类数据，一般可结合身份信息的特征，选取具有人身识别功能的数据作为去重的同类项。如在“张会超侵犯公民个人信息罪”一案中，法院针对数据重复问题做了去重鉴定，主要采用手机号、身份证号、银行卡号、邮箱号作为去重的同类项。

需要注意的是，（考虑到重名的可能性）实务中一般不会单纯将姓名作为去重同类项，而是选择具有唯一识别性标识进行去重，或者将多维度信息进行组合去重。如在“晏旎侵犯公民个人信息罪”一案中，辩方认为应当以手机号码及姓名双向去重，控方及法院最终却仅以手机号进行去重，因为若根据姓名去重则会删除重名的公民个人信息。

此外，刑事案件中证明责任本就由控方承担，控方应当负有确保其所提交数据真实的义务。对于“去重”这一技术门槛并不高的证明方法，侦查机关或控方应当自行进行去重操作，不应当再将这一责任转嫁至被告方。

2.抽样的方法

身份信息类数据无效有两种情形，一类是某些关键字段空缺造成的无效；另一类是信息错误造成的无效，即查获的身份信息与物理空间真实信息不相符。

对于前者，可以通过数据清洗技术来进行剔除。而对于后者的识别则比较困难，因为无法将查获信息与相关人员进行一一核实,目前行之有效的方法是抽样。抽样方法也被相关立法所确认，如《人民检察院办理网络犯罪案件规定》第二十二条规定，对于数量众多的同类证据材料，在证明是否具有同样的性质、特征或者功能时，因客观条件限制不能全部验证的，可以进行抽样验证。

司法实践中也常见抽样核实的做法。如在“钱涛、李玉琪等侵犯公民个人信息罪”一案中，初始鉴定出被告人钱涛10072860条符合手机号码规则的记录（已去重）、符合2882824条身份证号码规则的记录，经对姓名、手机号码进行真实性验证，确定真实率为58.6％，确定5902696条符合手机号码规则的记录……该案中“真实性验证”即为抽样方法。

目前，司法实践中应注意抽样方法的科学性和专业性，以及符合相关的程序规定。在抽样方法上，可根据案件具体情况选取简单随机抽样、等距抽样、分层抽样等方法；在抽样对象上，要注意对象具有同质性，以保证样本的代表性。

此外，抽样样本应当符合最低比例要求，不过目前网络犯罪领域关于抽样比例的司法解释及相关行业标准仍有待出台。在抽样程序上，按照界定调查总体、设计和抽取样本、评估样本与对总体进行估计的流程来进行。必要的时候，侦查机关可聘请专业人员作为专家辅助人来协助其完成抽样任务。

（二）静态作品类数据的证明机制构建

静态作品类数据的证明困境缘于大数据本身混杂性特质，带有技术时代的烙印。面对该混杂性困境，无论是司法机关还是辩方都难以具备专业能力进行识别，目前可行的办法是委托专业鉴定机构对涉案作品数量进行鉴定或者检验。

在“孙强、成都五二天科技有限公司侵犯著作权罪”一案二审中，被告人提出在指控侵权作品中有部分仅有封面或风景照片，有部分存在同一作品以不同ID存放的情况，还有部分已作下架处理不能查看具体内容，上述情况应从侵权作品数量中扣除。

对此，公安机关分别两次委托鉴定，鉴定机构依据比较专业的计算及比对方法，将其中合法作品、无效作品等进行剔除。该案中漫画作品链接具有一定的规律性，鉴定机构在检材数据库和样本数据库中对作品链接及作品名、作者名进行比对，并通过对每部漫画第一张、最后一张及中间两张图片检验等方式，来确定有效的漫画作品数量。

（三）动态数据的证明机制构建

目前，算法识别的思路在实务中也有所运用。不少涉及“流量统计”的案件会采用诸如“CNZZ”等第三方中立平台去统计流量，原因就在于第三方平台一般采用其较为专业的流量统计方法，可以去除其中的虚假流量、重复流量。

此外，越来越多的大型网络平台也开始自主研发算法来识别其系统中的虚假或违规行为，算法识别结果亦可被法院采纳为证据，并有可能在未来成为一种普遍的新证据形态。

特别是近些年网络平台风控系统、反作弊系统逐渐推广部署，如《中华人民共和国反电信网络诈骗法(草案)》（2021）中多处规定了电信业务经营者、金融机构、支付机构、互联网服务提供者要建立异常账户等监测识别机制。此类算法系统识别结果作为证据使用或将成为一种趋势，也为如何识别虚假行为数据提供了应对之策。

综上所述，本文主要对静态身份类数据、静态作品类数据及动态行为数据的特征及其证明困境进行了归纳，并有针对性地提出了海量数据多元化证明机制。通过去重、抽样方法解决身份信息数据重复性、无效性问题，通过鉴定方法解决作品类数据混杂性问题，通过算法识别方法解决动态行为数据虚假性问题（见表2）。

表2海量数据多元化证明机制

数据类型

具体形态

证明困境

证明路径

静态数据

身份类数据

个人信息条数；

身份认证信息组数；

注册会员数等

重复性

无效性

去重方法

抽样方法

作品类数据

图片数；

文章、书籍数等

混杂性

鉴定方法

动态数据

重复性

虚假性

算法识别方法

（四）现有证明责任及推定规则的调整适用

本文所提的海量数据多元化证明机制构建，并不妨碍现有推定规则及证明责任的配套适用，因为二者是从不同层面来应对海量数据真实性困境。

目前司法实践中关于网络犯罪海量数据已形成一套约定俗成的证明机制：公诉方基于综合认定得出推定数量；辩护方针对推定数量承担证明责任；公诉方对反驳进一步承担证明责任。

在第一环节中，鉴于海量数据证明难，公诉方往往基于概括认知直接推定出数据量；第二环节中，证明责任转移到辩方，然而辩方更难具备专业能力去完成海量数据“不真实”的证明任务，至多提出一些初步的线索或证据，也很难被司法机关所采纳。

对此，现有的证明责任分配机制应进行适当调整。可效仿非法证据排除之证明责任倒置规则，并建立海量数据证据排除机制。

具体而言，在第二环节，当辩方提出初步的线索或者材料，对海量数据真实性提出合理质疑后，则转由控方来承担排除此合理怀疑的证明责任。控方可根据案情具体情况采取去重、抽样、鉴定、算法识别等方法。若控方无法准确认定海量数据，导致不能排除合理怀疑的，则应将辩方提出质疑部分的数据排除或者直接将该证据整体排除。

需要注意的是，对于辩方提出的辩解并非一味支持。应当结合辩方本身的专业能力及证据掌握程度，由其负担提供初步线索或材料的任务，或者提供合理的令法官信服的辩解意见，并需达到“产生合理怀疑”的程度。

例如在“孙强、成都五二天科技有限公司侵犯著作权罪”一案中，针对控方提出的8238部侵权漫画作品指控，辩方仅口头提出其中有部分合法授权的作品，但未提供相关证据进行佐证。法院则认为被告单位有能力提供部分漫画作品取得著作权人许可的相关线索（如授权合同）。因此，被告单位应提供取得著作权人许可的相关证据线索，再由公安机关对该证据线索进行查证。

再如“北京爱奇艺科技有限公司、随州市飞流网络科技有限公司与上海七牛信息技术有限公司不正当竞争纠纷”一案中，针对原告方提供证据证明的被告方2.7亿余次刷量数据，被告方飞流公司多次就该数据提出反驳，但未能提出相关证据；而作为该刷量数据统计依据的柠檬挂机软件等系由飞流公司开发、控制，其完全有能力通过提交对应时期的后台数据来查明挂机软件当时调用的插件信息及UA信息等。因此，法院并未采纳被告公司的辩解。

综上，关于海量数据的推定及证明责任规则，可与本文提出的多元化证明机制并行适用，但应当对其进行适当调整。由控方承担海量数据真实的证明责任；辩方在其专业能力及证据掌握程度基础上，提供初步的线索或材料；若控方无法查实海量数据，则应排除相关证据。

五、结论

海量数据证明困境是我国司法领域长期面临的难题之一。该问题的产生表面上缘于我国日益扩大的网络犯罪态势及立法特色，实质原因则在于物理空间与虚拟空间的区隔及其评价模式的差异，物理空间评价实质行为，而虚拟空间则只评价机器行为及数字痕迹，而虚拟海量数据难以一一对应至实质行为。

此外，传统定罪量刑的精确性思维与大数据混杂性特征的冲突亦加剧了这一困境，传统以精确数额、物数、人数、户数作为罪量的模式难以适用于海量数据。目前司法解释及理论界所提出的综合认定、推定、等约计量法、底线证明法等主要是消减证明负担的权宜之计，并未回应海量数据真实性证明问题的本身。

若要有效解决此问题，仍应回归海量数据本身进行探究。探索不同类型的海量数据特征及其证明规律，并针对性构建多元化证明机制。就目前司法实践观察而言，静态身份数据主要体现为重复性、无效性困境，可通过去重、抽样方法解决；静态作品类数据主要体现为混杂性困境，可通过专业鉴定、检验方法解决；动态行为数据主要体现为虚假性、重复性等问题，可构建相关算法来识别非正常行为产生的数据。

具体案件中，要注意观察产生争议的海量数据其本身生成机制，是对动态行为的统计、还是对静态客体的描述；并查找其证明困境症结点，是重复、虚假亦或是混杂等问题，从而有针对性提出解决方案。当然，随着网络犯罪态势的复杂化，未来可能会出现更多类型的海量数据、暴露新的证明困境，然而本文的“多元化”思路仍可为解决此类问题提供参考。

（王燃：《大数据侦查》，清华大学出版社，2017年）

上一个再不打折就没人要了横版RPG《剑客少年》限时免费再不打折就没人要了横版RPG《剑客少年》限时免费

下一个DOTA2完美大师赛总决赛今日上演完美盛典“high”爆2017 DOTA2完美大师赛总决赛今日上演完美盛典“high”爆2017