在自然语言文本中隐藏信息

文号829032

23066

在自然语言文本中隐藏信息

zx-165332017/01/01软件综合 IP:广东

类似于在数字签名中隐藏信息的”域下信道“技术

其实叫”隐写术“似乎才是更加合适的讲法……

具体实现方法就是用同义词表将文中的词汇替换为多个同义词，以此来在自然语言的冗余中隐藏额外的信息。

比较重要的部分是分词和同义词词库，词库的丰富程度直接影响到文中能够用来替换的同义词数量，另外就是其中词义也要尽量相近，并且是常用的词汇。哈工大的”同义词词林“用起来效果并不好，虽然词汇量较为丰富，但是其中即使只保留了标注"="同义词的部分，仍有许多意思相差十分大的词，而且生辟的词也较多，会导致编码后文义完全不通顺，语言风格变化显著。之后我从某个用于”伪原创“的程序源码包中找到另一份同义词词库，虽然词汇量少了近一半，但其中词意思相差十分小，几乎都是常用词，效果显著。

因为没有做分词的原因，所以部分多字词会被拆分转换（例如”1般“），不过总体上数量不多。

同义词词典中有一些词出现在多个同一词表之中，而且转换后的顺序还与原来不同，更有转换后的词与原来的文段组合起来，被识别成另外的词的情况，产生了不少误码，因此使用了纠错编码。（7，4）汉明码在少数情况可用，大部分情况需要使用比较”暴力“的编码方式（三个bit表示一个bit这种...)

这种方法隐藏的信息只需要用同样的替换便可过滤掉（例如“伪原创”），健壮性低。其次有时容易出现一些正常文本比较少见的用词搭配/习惯。

示例: 原文在这里 78633

可以看出和原文差异不大。

人类之所以发展到现在的文明程度，如果要归结1些本质的东西，“创新”必定会名列前茅。的确，衣食住行用，没有几样一成不变的来自自然界，即使号称“纯天然”的农产品也很难例外。不管是所谓物质文明，仍是所谓精神文明，皆出自于历代先贤的立异。人们对于立异产生系统的概念是近代以后的事情，晚近时期发展为“立异崇拜”，开始努力地探索立异的规律。立异到底有无规律呢？在不同的尺度上，人们找到一些零散的“规律”。但系统的看来，距离搞清楚还很远。甚至应该思考：如果立异有规律，还叫立异吗？一、对于规律的自信如果您驯养过宠物，也许有这样的经验：没有受过教育的猫，有时会跑到饭桌上偷吃东西。如果每次都给它1些惩罚，猫就会找到爬上桌子以及接下来的不良体验之间的“因果瓜葛”，某些聪慧的猫甚至晓得趁主人不在的时候上桌子。无疑，所有高等动物都拥有发现因果瓜葛，甚至想象以及求证某些复杂因素链的能力。因果结合在1起，出自佛教用语“3世因果，循环不失”。在佛教传入中国之前，“因”就作为1个非常首要的词代表一种逻辑解释法了。人类文明对于因果的认识和寻求，正是来自生物本能趋利避害的自然演化。同语言和文字的发展相同步，当经验可以通过抽象的概念进行高密度和低失真的传承以后，对因果关系的好奇和追寻便进入了蓬勃发展时期，终究本能的发展到凡事都以因果释之。因果瓜葛是人类最先有意识去认识的规律。紧随其后，人们发现有些事情没有确切的缘由——例如划拳的时候如果连输5轮，并不等于第六轮就能赢。真正理解“运气”是怎么回事，就成为人类文明的一个阶段性进步。在西方，一七世纪出生了概率论，“随机”的概念也很快深入人心。在东方，“或然”虽然在古代用来表示“也许”、“随意”等不肯定的意思，但直到近代似乎也没有普及的认识，各路诡辩家（思想家）都在试图用因果逻辑解释一切。从因果的必然，再到概率事件的或者然，是人类认知的第二类基本规律。近代以来，对因果的认识获得了极大的发展。得益于笛卡尔时期开始的理论开辟，诞生了一整套反人道的法子，从而能够得到“可靠的”因果关系，而不是“由于吃乌骨鸡后感冒好了，所以乌骨鸡有医治感冒的作用”这类蒙昧的因果关系，极大的加快了文明的发展速度。因为掌握规律的巨大胜利，人们认为世间一切事物的规律都能够被揭露和利用，并将揭示规律作为人类最伟大的事业。历史上关于立异的阐述也大量的树立在对于规律的自信上，专司钻研发明创造的规律和方法的学科——创造学，就是这类自信的产物。然而，跟着对于混沌和幂律的揭露，人们认识了一类新的“随机”——它们在必定尺度上的概率是没成心义的，只能“整体而言”，却不论如何也找不出规律，比如没法提早两3天预测地震具体哪一秒发生。尽管没有规律也是“规律”，但是新的认识第1次不留余地的挫伤了人类掌控世间1切的信心。屋漏偏逢连夜雨，在选定1些坐标对于专利进行计量钻研之后，很多人发现创新也具有幂律分布的特色。二、创新构思创新的产生必然需要一些高档的想象能力。认识因果关系首先需要想象两个或多个事物的相干性，然后想象其中一部份的充沛性或必要性，后者是1个思维检验的进程。从现象来看，人比动物更具有这样的想象能力，特别是人可以将事物抽象为概念再进行想象。如果“发现自己曾不知道的因果关系”属于创新，那么上述想象能力是可以发生立异的。事实上，揭示自然界的因果关系1直是科学创新的主要战场。反过来看，当人们具备必定的知识以及经验之后，应用同样的想象能力，可以把已经掌握的规律迁移运用。历史上的确有人不少人，包括1些创造学家，认为1切发明创造都是对已有事物、已有规律加以综合以后，依照某些肯定的模式产生的，著名的TRIZ理论的基本意思就是如此。但是上述正反两方面并不是立异的全体。正常的想象老是限定在已经有认识的规模内，对于世界上本没有的因或者本没有的果就无能为力。关于不确定性的认识，告诉人们有些事是偶然发生甚至不可预测的，但这些事必须是自然运行的产物，不论是地震、天气还是1台机器。总之，它必须基于已有思惟材料进行深度加工，不论这种加工精确、隐约或属于随机尝试，都不应无中生有。极可能，脱离现实进行想象，特别是抽象思惟及其虚构能力是人类的一种特有的本能。大到国家、民族，细节到天使头上的光环、语言文字符号，大部份想象中的共识最初都来源于这种虚构。抽象和虚构是离散事件，但是在长时间的历史中看它则整体上是连续的。创新既源于抽象虚构，又被已有的思惟材料所局限。通俗的讲，不论诸葛亮多聪慧，也想不到原枪弹，即使他擅长无中生有。对于立异的这种连续性规律，也有人将其抽象为“技术进化论”。然而“进化论”的基础是随机变异，与创新其实不相同。由于具有发达的想象能力和抽象虚构能力，人们可以在思想中进行假定、试错、求证、仿真等探索。对于具备科学理性素质的人来讲，严密的逻辑和稳定明确的概念体系（抽象思惟工具体系）是思想探索的有力武器。这些思想探索的满意输出就成为立异的种子，称为立异构思。对于个人而言，立异构思就是立异，但是对人类世界则不一定，由于创新构思可能不靠谱或不新颖。如果不满足社会衡量1个东西是否属于立异的实时标准，这个所谓的立异则只能停留在“精神可嘉”的范畴。假如人类世界毫无遮拦的接受一切“立异”，想必也会把自己折腾到崩溃。 3、从创新构思到创新在不同的场合，“创新”可以用作动词、名词、形容词和副词，包罗万象。从立异构思到产出被称为立异的事物，同样属于立异的一个阶段。对于不同的立异，这个阶段的情景大不相同，但拥有进程上的共性。通常而言，总是包括创新的固定、创新的分享和立异的认可等过程。对于科学钻研等工作，在立异的固定以前，还需要进行检修。立异构思仅仅存在于人的思惟之中，离不开具体的人。将立异构思用脱离具体的人而存在的法子显现出来的进程叫做创新的固定。例如用文字书写下来，用话语描述和记录，制作成样品、产品等。创新的分享是指让更多的人了解创新，通常的办法包括发表论文、销售产品、申请专利（兼具固定作用），也包括告知朋友、发布在互联网上等办法。创新是客观的，但冠以创新之名却是1种文化现象。1项事物是不是属于创新，取决于它在社会中的生命力，这就是创新的认可。1项构思可能以产品方式固定，通过销售产品而分享，在市场竞争中获得了大量的用户，被后人称之为创新。在为创新树碑立传的时候，人们经常疏忽保守以及竞争。一项构思最终成为立异，不仅要与其它构思竞争，同时还必需与保守竞争。保守以及竞争可以排除了掉大部份劣质的立异，有利于人类文化总体保持稳定健康。从这个角度来看，守旧其实不是创新的对峙面，而是立异的一部份。不过不是所有具有竞争优势的创新都一定带来好结果，特别是优势主要依托对人们直觉和情绪的调动的时候，倒退和折腾的风险就相对增加。科学研究是以揭示规律为快感的一种流动。对于科学钻研的精神，人们曾经提出1个名言，叫做“大胆假定，小心求证”。“勇敢假设”是基于必定素材的想象以及虚构，“小心求证”在思惟阶段的主要内涵是结合已经知的理论与事实，通过逻辑思惟和思想实验来求证，它的满意输出即为创新构思。现代科学的结构极为复杂，以致于良多人钻研一辈子，仍然未能超越前人的知识范围。所以，其实不是所有创新构思都能转化为科学成果，必须突破前人的认识边界并且被充分验证，才有可能成为科学成果或叫学术创新。这是从事科学钻研需要的学历越来越高，需要的知识传布速度愈来愈快的1个缘由。科学研究和技术发明都需要进行检验，这1进程通常早于创新的固定就已经开始，然后贯穿后续的分享以及认可过程。对于科学钻研来讲，理论检验是必须的，有相当一部份还要进行试验验证。科学家认为具有一定的可靠度以后再将其固定为论文，然后交由期刊进行同行评议，没有发现显明的缺陷，才进入发表或者分享阶段，尔后还会经历长时间的检验。如果1项成果从未被固定、分享、验证，实际上也无人认可，它就不成为社会心义上的创新。 4、创新的动力为何人类酷爱创新？这可以从人的本能和社会文化两个角度来探索。就本能而言，目前主要有两类假定，其1是人类对创新体验有欣快感，比如立异能让人取得意外的紧张刺激感或者好奇知足感，如果能制造这种感受便能在进化中患上到优势。另一种假设认为立异来源于隐约处理，而隐约处理能够降低大脑的能耗，也能在进化中获得优势。就社会文化角度而言，则可以笼统的认为创新自古以来都是1件有逼格的事情，可以在熟人中炫耀，可以作为咭片结交目生人，可以取得金山银海，以及可以取悦妹子。以个人对于创新产生积极预期为基础，加上社会运转整体上赋予创新更多的回报，构成了创新的社会动力。立异的产量基本服从于一些无比原始的基础条件，比如全社会主动寻求立异的协作人口总规模及其资源配置水平。在工业时代来临以前，立异不属于社会主流文化，规模很小同时也缺乏有效的资源配置。人们大规模有意识的主动追求立异，以至于把创新作为1个独立的工作，是从近代才开始的。近代最重要的变化是：对规律的认知不再需要通过漫长的“生产生活实践”来积累。科学的诞生使患上认识自然规律与糊口出产实践完全分离（理论创新与实用创新分线发展，前者领先于后者），可靠的知识迅速增加，远远超过古代自然生息能到达的知识产出速度。这会带来什么后果呢？在古代，铜和铁的发现纯属意外，又经过很长时间才患上以批量的出产——此后漫长的时间里，人们围绕这两种材料做出了数量巨大的创新，从兵器到日用器皿，凝结了所有能开动的智慧，工艺也达到了叹为观止的程度。科学出生之后，虽然科学理论的产生仍然需要借助运气，但科学理论大大超前社会经验，因此能够为后续的创新提供明确的方向。元素周期表很快被填满，不论是铁的冶炼仍是合金等新材料的开发都再也不是一件“纯属意外”的事情。假设没有科学的古代，一个文明（譬如每一千万人规模）在无数的臆想、出产实践以及意外事件中脱颖一件较为首要的立异（至关于青铜的发明）的概率为千年1遇，那么沿着科学指明的方向并遵守科学方法，这个几率就会高达1年1遇。换句话说，不论对古代的个人或是整个国家而言，立异的预期患上利无比低，不会有人把立异作为独立追求，延续古法或稍有改进是最稳当的策略。而到了近代，这项工作的患上利已经足以创造所有时期的世界首富（不论是财富还是声誉）并成为民族繁荣富强的基础，立异就成为了一件人们必需主动追求的事情，从而形成了极大的规模以及对比有效的资源配置。此时，物质文明再也不是“副产品”，相反可以被真实地掌握。现代的情况则对于上述过程有所逆转。1方面得益于工业和信息技术发展，工程技术（实用创新）效力很高，填（科学的）坑的速度加快，另外一方面科学在大部分领域的进展相对放缓，因此实用立异又进入了青铜器时代那种精雕细琢的境界。综上所述，来自人类本能的立异动力不是那末容易扭转，但社会动力却在科学诞生和工业化以后迅速加强。维持自由市场经济，扩展立异协作规模以及投入自然科学钻研（包含相关人材培养）将继续成为未来推动创新高速发展的基本方法。 5、用创新发生立异 “用机器制造机器”是工业时代最清脆的口号。随后，“用机器发生立异”自然被提上日程，成为当今最紧迫、最前沿的课题。如果想让机器像人一样产生创新，就需要弄清楚人类立异的规律，至少搞清楚这项本能的发生机制。然而正如上文所见，想很快搞清楚不太现实，用机器来做出像人一样的立异，恐怕短期内也不会有可行的办法。要解决这个问题，需要先提出一个问题：立异是否只有“人类创新”这1种，人类创新又是否只有上文描写的这一种？事实上人类立异的法子以及形式一直在变化，不仅有多种内涵，而且每种本身也在不断更新。机器创新其实不必须依照当今的人类立异来设定，完整可以有另外的情势和内容。宇宙中如果有其它智慧生物的话，很可能也有不同的“立异”，不是咱们可以理解的。如果认为发现新的相关性以及因果性就属于立异的话，用机器相对容易实现。对未知领域，只要有足够多的基础数据，都有可能发现规律。比如我们需要使卫星在能耗和业务量之间优化配置，完全可以用机器来求得最好的管理策略并直接实行。如果由人来统计分析，可能创造出一套“×××节制法”的东西，还能发论文，在社会意义上已经属于立异。用机器也可以患上出这样的东西，只无非，创造这个机器（包含程序）被称为立异，而机器发生的效果往往就不被认为是机器发生的立异了。将来这种情况会越来越多，大规模的人口会去创造这样的机器，为什么不能认为这是在用创新产生创新呢？机器也能够具有抽象能力，我们可让机器发生一些空概念，并且经由大量的数据分析为这些概念赋与某些特定的意义。本文对于人类创新的定义是建立在社会意义上的，它需要走完从构思到认可的全部过程。在这种语境下机器很难符合人类创新的定义，必然被嘲笑“有多少人工就有多少智能”。事实上对于机器而言，能抽象概念，能发现规律就可以视为创新了。将来还会有更多的机器被创造，而他们产出的不论概念还是规律，都不需要被人类理解。

其中隐藏的文字是：