第495章幻数据压缩算法猜想1|脑回路清奇的主角们|脑回路清奇的主角们章节阅读-古老斋

亲,双击屏幕即可自动滚动

第495章幻数据压缩算法猜想1

    =数据压缩算法=速记算法=
    递增素数之间，可以使用加法，得出相对小的数，可以用乘法，得出相对大的数，可以用乘方号，得出很大很大的数。
    当使用特定长度把一个大数据分割成n个小片段时，就可以进行统计，比如全体相加，然后除以总数得到全局平均数。
    然后使用1kb的平均数，1mb的平均数，1gb的平均数作为比大小基准。
    然后还有特定数（比如出现了一次以上的多次数）（比如只出现了一次的一次数）（比如出现的最大值）（比如出现的最小值）。
    现在的问题就是，统计能够获得数据的被过滤掉了很多信息的被压缩后的数据，如何使用统计获得的数据，来逆推原始数据（包括各种统计的先后顺序）（当然，因为数据的缺失，导致必须使用试错方式来实现）。
    在处理大数据时，如何减少解压缩时试错次数，就是大数据压缩专用算法的重难点。
    [示例]
    如果有一个二进制数1010010010011100110001000100010，统计出其二进制的1总共有12个，二进制的0总共有19个；转换为八进制为12223461042，统计出其八进制的0总共出现了1次，八进制的1出现了2次，八进制的2出现了4次，八进制的3出现了1次，八进制的4出现了2次，八进制的6出现了1次；转换为十进制为1380868642，统计出其十进制的0出现了1次，十进制的1出现了1次，十进制的2出现了1次，十进制的3出现了1次，十进制的4出现了1次，十进制的6出现了2次，十进制的8出现了3次（当然了，为了加速碰撞，一般都是使用素数进制的方式，而不是使用这种方式，作者用这种方式示例，只是为了方便使用微软自带的程序员计算器换算进制，从而进行统计），那么接下来，就需要通过进制碰撞的方式，来逆推根据统计得出的原始数据。
    当然了，也可以使用md4，md5和其他的哈希值生成算法，用于快速生成哈希值，以及记录上大小，然后是二进制的0和1，然后是八进制，16进制（一般都采取2的正整数次方进制的方式，来加速快速压缩时的速度，换算更快）。
    另外还有一种快速碰撞的方式，使用大于x的（y+1次方），小于x的y次方的方式。
    第一次比大小范围：
    示例：取x=16；y=18；
    16^19=75，557，863，725，914，323，419，136
    16^18=4，722，366，482，869，645，213，696
    第二次比大小范围：
    示例：取x=15；y=7；
    15^8=2，562，890，625
    15^7=170，859，375
    当然了，因为作者并没有使用16^19-16^18，然后再把结果进行开15次方，然后再进行筛查，可能就会导致第二次和第一次的相关度不高。
    一个二进制数据根据位数，可以表达多少数值？
    1位二进制，有两种可能，1和0。
    2位二进制，有四种可能，00，01，10，11。
    16位二进制，有2的16次方种可能，然而一个数据本身使用这么多位是一种浪费。
    也就是说，一个16位二进制所表达的数，是一个固定数，是大于或等于0，小于2的16次方+1。
    就比如说，一个1zb大小的数据，只要其本身是固定的，那么就注定大于或等于0，然后小于2的多少次方来着？？？+1。
    表达固定的数，并不一定需要使用到很长的长度。
    比如2的987654321次方，可以是一个很大的数，其换算成二进制，会占用多大的存储空间？然后是不是可以逆推为算术内容：2的987654321次方？
    问题就是，并非所有的数，都是规律数，都可以使用a的b次方+c乘以d+e阶乘方式正好等于该数，也就导致往往只能采取使用比大小的方式，无限近似，大于某个最接近该数的小数，小于某个最接近该数的大数。
    比如说，想要记录一个5，那么在只能使用素数的表达方式时，就可以记录为该数大于3，小于7。
    使用大于和小于之后，就可以获得一个数据范围，该范围内可能包含有有数的可能性，接下来的方法，就是把这个可能性减少，比如说（3+7）/5=2，则表示这个数正好处于大于和小于的中间值，比如说（3+7）/4=2.5，则表示这个数正好大于大于和小于的中间值；以此类推；
    设定一个数为未知数b，a大于b小于c。
    那么就可以取近似值（a+b）/c=d
    一般情况下，d都是带有小数的，那么把d的小数去掉，那么d的整数部分就可以作为第二轮的最小值，d+1就可以作为第二轮的最大值。
    取（a+b）/c=区间值1（也就是c更靠近a，还是更靠近b）。
    （a-b）/（b-c）=区间值2
    （a+c）/b=区间值3
    （b+c）/a=区间值4
    还有一种固定数大于小于法，就是a+→b←+c｝总长度为多少位，特定数大于某个可以用循环速记法记录的数，小于某个可以用循环速记法记录的数。
    然后就是使用特定算法生成一个数，该数大于b，然后使用特定刷房生成一个数，该数小于b。
    示例：3*7=21；4*5=20；3*7大于b小于4*5；那么就可以获得该数百分之八十的近似值，然后再使用不断精准的继续用比大小法接近的方式，获得。
    比如3.1415926
    第一次比大小：4大于圆周率大于3
    第二次比大小：3.14小于圆周率小于3.15
    第三次比大小：3.141592小于圆周率小于3.141593
    比大小之后，就是使用一个算术，来生成更接近的比大小精准度。
    比如第一次比大小，大和小之间相差2的16次方，第二次比大小，大和小之间相差2的14次方，第三次比大小，大和小之间相差2的12次方，以此类推，就能快速还原出原始数据。
    1tb的固定数据，可以使用1gb的算法来生成，1gb算法当做固定数据，就能使用1kb的算法来生成，这就是tb2kb算法的原理。