亲,双击屏幕即可自动滚动
第302章 对《数据安全法》的呼唤
    反正绝对不能说这些信息不重要。

    至于果子为什么对这类东西感兴趣。

    因为收集这类一贯不被视为数据的数据。

    实际上通过深耕是能得到跟传统数据差不多的功效的。

    而且使用这类数据的话,通过一些概念性的教育消费者甚至可以形成一种企业从来不涉足一般数据的印象。

    这对于树立企业形象岂不是很有妙用??

    总之,对于既当又立的企业不能说是没有诱惑力。

    反正林灰觉得从暗数据入手这倒是符合很多科技巨头的行事风格。

    类比林灰以前估量的价格。

    如果说几千万美元就能买上千万条双语标注数据。

    可想而知像苹果所谋求的价值两三个亿美元的暗数据肯定是一笔相当庞大的数据。

    涉及到标注数据跟暗数据一大区别在于标注数据是结构化进行过一定处理的数据。

    而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。

    结构化的数据一般是即有固定格式和有限长度的数据。

    例如填的表格就是结构化的数据。

    比如说“国籍,种花家,民族:汉,性别:男,姓名:张三,年龄:……”

    这种格式的都叫结构化数据。

    这类数据很容易以固定的格式存储到数据库里。

    而半结构化数据值得是一些l或者tl的格式的数据。

    对这类数据当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。

    所谓的非结构化的数据:就是不定长、无固定格式的数据。

    例如网页,邮件,有时候非常长;有时候非常短,几句话就没了,这类就是典型的非结构化数据。

    子啊比如说例如wrd文档、语音,视频、图片都是非结构化的数据。

    而半结构化数据和非结构化数据,一般合二为一统称为“暗数据”。

    这个词语也不是林灰定义的。

    相比于标注数据这种结构化数据,暗数据同标注数据此二者的价值是不可同日而语的。

    单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。

    两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。

    更何况说拿几亿美元去换暗数据呢?

    可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。

    林灰那有很多前世的信息。

    但也绝不可能有满足苹果胃口的暗数据。

    不要说是林灰前世那点信息了。

    就是像国内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足苹果的胃口。

    这种情况下如果林灰对苹果的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。

    至于如何去收集呢?

    暗数据的收集方式多种多样。

    因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。

    暗数据还可能包括由于存储在过时设备上而无法再访问的数据。

    这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。

    除此之外还有很多种收集暗数据的方式。

    说起来虽然很容易。

    但正所谓抛开剂量谈毒性都是耍流氓。

    同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。

    像苹果所图规模的暗数据肯定不是传统的数据挖掘方式能满足的。

    似乎时下也没太好的挖掘暗数据的方式。

    传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。

    这种方法费时费力。

    不过也仅仅只是对于时下的科技公司来说。

    对于林灰来说他还是有很多数据挖掘方式的。

    没人比林灰更懂如何挖掘数据了。

    对于大规模的数据挖掘,似乎最方便的方式就是借助于人工智能来挖了。

    甚至于林灰前世电脑里有一些现成的挖掘暗数据的方式。

    虽然效率受限于时下的硬件可能会大打折扣。

    但相比于现在传统的挖掘方式也是降维打击般的存在了。

    不过新的问题又来了,从哪挖掘暗数据呢?

    前面提到了像有些属于私有的,由政府或私人机构控制的深度数据。

    这类包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库在内的数据。

    就算是属于暗数据。

    借林灰十个胆子林灰也不敢去挖。

    毕竟这玩意另一个名字叫国家机密。

    思考了一小会,林灰倒是想到了几个主意。

    但认真琢磨之下,无论是哪个主意似乎都很容易担风险,短时间内都不具有可行性。

    尽管说做事情完全不担风险几乎不存在。

    但为了区区两亿美元去担风险似乎没啥必要。

    毕竟以林灰脑海中的信息想赚两亿美元实际上不需要太久的。

    总之,完全没行险的必要。

    既然没行险的必要,而且林灰一贯求稳。

    那么涉及到数据挖掘为什么林灰会想出一堆有风险的方法呢?

    莫非是林灰飘了不成??

    再往后几年的话,林灰想到的主意没任何问题。

    至少以21年年底的思维来看,林灰刚才想到的也不是什么铤而走险的办法。

    林灰所想的方法完全可以合乎规矩进行操作。

    但很无奈,现在是2014年,想要进行同样的操作是不可能的。

    最根本的原因是因为在前世往后几年的数据挖掘一应事宜已经完成程序化、规范化。

    推荐下,追书真的好用,这里下载大家去快可以试试吧。】

    涉及到数据的利用以及数据安全方面有明确的《数/据/安/全/法。

    该法律开宗明义第一条就说明了:“为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,制定本法。”

    在《数/据/安/全/法这部法律中对于数据利用和数据安全的很多东西都进行了相当明确的规定。

    涉及到数据安全应急处置机制、数据安全审查、数据出口管制之类的自不必说。