大规模语言模型的基石数据集

最近AI大火,作为一名稍微有点赶不上趟的NLP工程师,感觉有很多课需要补。恰好昨天Meta发了新的大模型论文,浏览了一下发现很适合作为补课的切入点。 今天这部分是关于预训练使用的数据集,是重中之重,说数据是当代AI的基石一点也不为过。GPT3用的数据其实没有公开,Meta这次论文里提到的应该算是开源模型里一个最全的版本。他们使用的数据如下表所示,我们一一来看一下。 Dataset Sampling prop. Epochs Disk size CommonCrawl 67.0% 1.10 3.3 TB C4 15.0% 1.06 783 GB Github 4.5% 0.64 328 GB Wikipedia 4.5% 2.45 83 GB Books 4.5% 2.23 85 GB ArXiv 2.5% 1.06 92 GB StackExchange 2.0% 1.03 78 GB CommonCrawl 占比最大的数据集,他们的网站是https://commoncrawl.org/。我感觉这真是一个伟大的项目,7年时间爬了超多的互联网网页,涵盖了40种语言。 CommonCrawl网站截图 {: .align-caption style=“text-align:center;font-size:smaller”} 根据他们博客的最新数据,2023年二月版的数据包含了400TB的数据(纯文本的数据是9个多tb),三十多亿个网页。 The crawl archive for January/February 2023 is now available! The data was crawled January 26 – February 9 and contains 3....

February 26, 2023 · 3 min · Yuanhao

ChatGPT未来会拥有自我情感和思维吗?

首先批评一下知乎,类似的问题翻来覆去提。感觉和上次的这个问题很像:https://www.zhihu.com/answer/2869775692 我尝试问了下GPT以下问题,它的回答还挺乐观,哈哈。 我:什么是情感? GPT:情感是一种心理状态,它指的是一种强烈的感情,如欢乐、悲伤、焦虑、愤怒、害怕、爱、厌恶等。它们可以由个人的生活经历、社会环境、文化和道德价值观等因素引起。 我:语言模型,例如GPT是否具有情感? GPT:不具有情感。GPT(Generative Pre-trained Transformer)是一种预训练的自然语言处理模型,它可以帮助机器理解和生成自然语言,但它本身并不具有情感。 我:为什么说语言模型不具有情感?能说得具体一些吗? GPT:语言模型本身并不具有情感,因为它们只是一种机器学习模型,它们可以帮助机器理解和生成自然语言,但不能感受和理解情感。语言模型的输出仅仅反映了输入的语义,它不能表达情感,也不能理解和识别情感。 我:未来有可能让语言模型具有情感吗? GPT:是的,未来有可能让语言模型具有情感。随着技术的发展,许多机器学习技术和深度学习技术已经可以用来识别和理解情感,而语言模型也可以通过这些技术来学习情感,从而具有情感。 就像GPT自己回答的一样,语言模型目前是没有情感的,本质上还是对文本之间概率分布的刻画。但因为人是有情感和思维的,对语言模型表现出来的一些能力,会不由自主地认为它具有情感或者思维。所以从“我要我觉得,不要你觉得”的角度,这个问题没啥讨论的意义。一千个观众眼里有一千个GPT。 在上面那个回答里,我还举了两个思维实验来说明这个观点。但评论区网友上来就给我一顿喷。讲真我当时心理是有点小波澜,但我现在学乖了,多利用GPT来回答问题,被网友骂成狗也没啥心理负担。 我个人认为,按照目前的技术方向,未来也无法获得思维和情感。但这不是个经济的想法。应该像GPT一样,大声说会就完了,然后再说一堆车轱辘话。毕竟未来的事,谁知道呢。 我在知乎的原回答

February 16, 2023 · 1 min · Yuanhao

ChatGpt能成为恋爱大师吗?

我认为能也不能。 我问GPT:什么是恋爱大师?恋爱大师具有哪些特点和能力? GPT回答:恋爱大师是一种专业的恋爱咨询师,专门帮助人们解决恋爱问题。恋爱大师通过提供心理咨询、情感指导和婚姻咨询等服务,帮助人们解决恋爱中的问题,提高恋爱关系的健康水平。恋爱大师具有较强的心理学知识和专业能力,能够从恋爱关系的心理学角度出发,从客观的角度分析恋爱关系中出现的问题,并给出有效的解决方案。 让我们再来试试他能不能“分析恋爱关系中出现的问题,并给出有效的解决方案”。 我问GPT:我的女朋友老是迟到,跟她沟通过几次都没有效果,现在说她她还会生气,我该怎么办? GPT回答: 首先,你要明确你的期望,并且要清楚地告诉她,你希望她能够准时到达。 然后,你可以给她一些实际的激励,比如说,如果她能够准时到达,你会给她一个小惊喜。 再者,你可以尝试一些不同的沟通方式,比如用短信或者电话来提醒她,或者在约定的时间前几分钟来接她。 最后,你可以给她一些支持,告诉她你理解她的情况,并且希望她能够改变,但也要表达出你的期望。 我再次追问:那万一我这么做之后她还是没有改变呢?我要和她分手吗? GPT回答:如果你采取了上述措施之后,她仍然没有改变,你可以再次和她沟通,让她明白你的期望,并且表达出你的失望。如果她仍然不能改变,你可以考虑是否要分手,但是你也可以尝试一些其他的方式,比如让她参加一些时间管理的课程,或者帮助她制定一些有助于准时到达的计划。 对上面的回答,作为用户我是会满意的,给出了一些具有可行性的方法。这种人际沟通中的问题往往是有最佳或者较佳实践的。这方面博览群书的GPT可以给出一些不错的建议,对没有经验的小年轻可以有不小的积极作用。 但感情的事又很复杂,而对感情的处理方式是没有标准答案的。如果上面那个爱迟到的女朋友就是屡教不改你要怎么办呢?你可以选择扬长而去,也可以选择包容承受。但毫无疑问,你考虑的肯定不只是迟到这个问题。她的性格、颜值、知识、财富、你们相处的每个瞬间都可能影响你最后的决定。但这么多的信息,目前甚至是无法通过prompt传递给GPT模型的(GPT模型只能处理一定长度的输入)。这个层面看,它跟人类心理咨询师还是有很大的差距。 It has a token limit, which I believe is 4097. The total number of tokens used is equal to your message and GPT’s response combined. You can see how many tokens your prompt uses here: https://beta.openai.com/tokenizer 我在知乎的原回答

February 16, 2023 · 1 min · Yuanhao

SEO手记

最近在看一些SEO相关的材料,比较主要的是一本名为《SEO实战密码》的书,虽然看了不少但又好像没学到什么。 于是我决定用一个小网站,故事101,来进行实践,这个网站是之前做的讲故事小程序的延续,希望通过这个网站能为小程序吸引到更多的用户。 网站优化 meta信息补充完整,title中增加类别词,找到了一个很棒的插件next seo 在尽可能多的地方插入超链接,例如模仿维基百科在内容中插入关键词的超链接 因为内容都是爬的,准备借助算法来提升内容原创性 外链建设 在这个博客站先加上了一个链接

February 10, 2023 · 1 min · Yuanhao

一月读书笔记:寻找目标

又好久没有写东西了,主要是因为工作和生活都比较忙碌。这段时间ChatGPT比较火,也在知乎参与了一些讨论。作为一个NLP圈内人,其实早在大众之前我们就已经关注到这个模型。不过除了模型的强大,OpenAI CEO奥特曼的生平事迹也很有冲击力,恰巧也和今天想写的东西有点关系。 在陪产假和春节假期期间,除了初为人父的喜悦,最大的收获就是读了两本书。一本是冯友兰先生的《中国哲学简史》,另一本是畅销书《认知觉醒》。说实话哲学简史这本读起来还挺费力的,因为好多诸子百家的观点是直接引用文言文且没有注释。也正是因为这个原因,才挑了一本现代书籍搭配起来阅读,好在《认知觉醒》还挺不错。 按照《认知觉醒》里的方法,读完一本书要留下一些最打动自己的东西,写出来。所以今天这篇的主题也很聚焦,就是“寻找目标”。哲学简史里讲到儒家的时候,有一节是《知命》,里面引用了论语里的名句 君子坦荡荡,小人长戚戚 不知道大家是否准确知道这句话的意思,翻译成汉语是“君子光明磊落、心胸坦荡,小人则是斤斤计较,患得患失。”。在书里,冯先生更多讨论的是个人和外界的关系,知命的人可以 竭尽己力,成败在所不计 但我认为这里的命,也和自身有关,是自己的使命。唯有找到使命,方有竭尽己力的方向。孔子自然是知道自己的使命,他希望在乱世之中重建礼乐秩序,而且一生为之奋斗。奥特曼身上我感觉也有这种气质,才能在大模型这条路上坚持下来。 反观自己,在这方面还有很大的欠缺。因为没有找到”使命“,只能退而保证”先把每件事做好“,虽然看上去也能取得一些小成果,但这种模式很难产生系统性的大成果,也更容易计较当前的得失。要捡多少芝麻才能拼成一个西瓜?这种模式的天花板实在太低。 也不是没想过要寻找可以作为使命的目标,但之前确实犯了一些错误,导致效果不佳。比较大的一个问题是“过犹不及”、“眼高手低”——太想定一个宏大的目标了。我们能看到的成功案例往往是非常难得的,几千年只出了一个孔子,这么多公司也只有一个乔布斯,如果一上来就把他们的成就作为标准去找目标是不合适的。特别是像我这种早年求学经历比较顺利的人,很容易有这个问题,总想着、等着干大事,觉得一些当下可以干的事情不够性感。其结果就是没有目标,先随大流,让自己保持选择的权利。我现在感觉可以逐渐提高目标的难度,先尝试定2-5年内的目标,再扩展到10年、15年。 《认知觉醒》里有一节专门介绍了如何寻找人生使命,虽然有些泛(比较适合用来定15年甚至更长时间的大目标),大家也可以参考 真正的觉醒者往往会有意无意地用感知力来代替思考力,比如《美好人生运营指南》一书的作者一稼就提出了6条寻找人生使命的建议。 这个世界有很多事情可以做,你最想帮助哪些人? 什么事让你废寝忘食? 你在做什么事情的时候最让自己感动? 你最让人感动的时刻是什么? 如果没有任何经济压力,你会如何度过余生? 闲暇的时候,你关注最多的是哪方面的信息? 今年,给自己定一个预目标,就是找到未来5年的目标。 2023.2.12更新 这几天朋友圈都在传精仪师兄们刚上市的公司禾赛,点进李师兄朋友圈,他对自己上市演讲视频配的文字是 To achieve great things, two things are needed: A PLAN, AND NOT QUITE ENOUGH TIME.

February 9, 2023 · 1 min · Yuanhao

ChatGPT在内容创作行业,依据现有的法律,它创作的内容是否享有著作权?如不能,如何界定内容的归属?

很实际的问题,之前并不是很了解。看了一些资料勉强答一波。 首先,我国《著作权法》所保护的对象是“作品”,其定义在第3条进行了列明,即“文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”。在这里跟本题最相关的一个作品属性是“独创性”。根据资料2的论述,法律界对目前AI的认识我感觉还是比较到位的,即当前的所谓AI并不具备创造性,因此ChatGPT之类的AI工具,性质为“帮助自然人进行创作活动的工具”,其自身无法自主思考,不是进行自主创作主体,AI软件对文章的生成是开发者意志的延伸。 《著作权法》第2条规定了“中国公民、法人或者非法人组织的作品,不论是否发表,依照本法享有著作权”。因此著作权仅能由民事主体享有,但AI并不是民事主体,因此AI本身无法作为作品的作者,但使用AI的人是可以的。 至于人是否可以享有AI生产作品的著作权,也要根据实际情况判定。主要的依据也是上面的独创性。 下面是两个案例,第一个是不享有著作权的 在北京知识产权法院于2020年审结的“北京菲林律所诉百度公司著作权侵权案”中,菲林律所发布的大数据报告被他人在未经同意的情况下转载至百度百家号,菲林律所由此认为百度公司侵犯了其著作权中的信息网络传播权,遂向百度公司主张侵权赔偿。法院经审理,认为菲林律所所提交的大数据报告仅是根据现有数据搜集并分析而形成,不具备独创性,不属于《著作权法》的保护范围。 第二个是受著作权保护的 2018年8月,腾讯公司在其下属网站中发布了一篇由腾讯旗下人工智能写作软件Dreamwriter生成的新闻,而该文在当日即被网贷之家转载,腾讯公司遂向法院起诉。法院经审理认为,相关文章“外在表现符合文字作品的形式要求,其表现的内容体现出对当日上午相关股市信息、数据的选择、分析、判断,文章结构合理、表达逻辑清晰,具有一定的独创性”,同时认为“该文章的表现形式是由原告主创团队相关人员个性化的安排与选择所决定的,其表现形式并非唯一,具有一定的独创性”,并最终确认该篇由人工智能软件生成的文章属于《著作权法》下的“文字作品”,受到我国法律的保护。 最后,我想说,权利和义务是伴随的。ChatGPT之类的工具,经过大量语料训练,有一定概率会有侵犯他人著作权的情况出现。作为使用者,平常玩玩无所谓,一旦用于正式文本的产出一定要把好关。避免自己陷入侵权的窘境。 参考资料 https://www.sohu.com/a/592470873_398071 http://www.anlilaw.com/100031/200 我在知乎的原回答

February 3, 2023 · 1 min · Yuanhao

依据现有 AI 的发展速度,类似 ChatGPT 这样的产品,距诞生自我意识还有多远?

这个问题其实可以用两个著名的思想实验,从技术和哲学两个角度来回答。 第一个是“中文房间”,是一个著名的思维实验。它是由美国哲学家约翰·赛尔在上世纪八十年代设计的。 这个实验是说你想象一个只会说英语的人身处一个房间里,这个房间除了门上有个小窗户,其他地方全都是封闭的。这个人有一本用英语写成的书,里面指示了该如何处理接受到的中文信息,并且用中文进行回复。房间外面的人不停地向房间里塞进用中文写成的问题,房间里那个说英语的人查阅手边的那本指导书将合适的中文回答递出房间。 虽然房间里的人可以和房间外的人对答如流,房间外的人以为房间里作着个懂中文的人,但实际上那个人只会说英语,只是那本包罗万象的指导书太牛逼了。 套在这个问题里,ChatGPT就像那本指导书,如今的技术让人类真的可以造出这样的东西了。ChatGPT巨大的训练语料就意味着这个模型可能阅读过这个世界上相当大比例的文本,不管是书籍、论文还是博客文章,甚至是代码片段,然后给你一种无所不知的感觉,这也是为什么ChatGPT可以有如此令人惊艳效果的原因。作为在屋外的人们,很有可能认为屋里的人有理解能力,甚至有意识。 如果对技术有一定了解就会知道,当给定输入的时候,ChatGPT这样的模型做的最多的就是非常确定性的加减乘除等等数学运算,在某些环节,这些模型会输出一个概率分布,通过在这个输出的分布上进行随机采样,来达到一种丰富、随机应变的效果。 关于生成式模型的输出采样,可以参考我之前的文章:https://zhuanlan.zhihu.com/p/114669778 和https://zhuanlan.zhihu.com/p/115076102。 不夸张的说,如果把这种随机采样换成贪心采样,也就是每次都取概率最大的输出,那这个ChatGPT一下就会从牛逼闪闪变成木讷呆板。所以,从技术角度说,ChatGPT距离自我意识还相当遥远。 另一个词是“图灵测试”。 图灵测试的内容我直接摘抄维基百科 1950年,图灵发表了一篇划时代的论文,文中预言了创造出具有真正智能的机器的可能性。由于注意到“智能”这一概念难以确切定义,他提出了著名的图灵测试:如果一台机器能够与人类展开对话(透过电传设备)而不被辨别出其机器身份,那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。论文中还回答了对这一假说的各种常见质疑。图灵测试是人工智能哲学方面首个严肃的提案。 或者是这样 如果一个人(代号C)使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题。对象为:一个是正常思维的人(代号B)、一个是机器(代号A)。如果经过若干询问以后,C不能得出实质的区别来分辨A与B的不同,则此机器A通过图灵测试。 我相信当下的ChatGPT已经非常接近或者已经可以通过图灵测试了。那么从这个角度来说,机器已经相当与能思考,或者说有自我意识了。 我在知乎的原回答

February 3, 2023 · 1 min · Yuanhao

ChatGPT渗入到内容行业后,是否会造成剽窃、作弊成灾?会扼杀人类的内容创造力吗?

我的想法是剽窃、作弊成灾是会的,但扼杀人类的内容创造力是不会的。 首先人工智能模型造成剽窃、作弊的现象是近几年才出现的新情况,这也是模型水平进步的一个表现。而且,这种模型导致的剽窃和作弊相比于原来的形式还有比较明显的差别。要理解这件事情,还需要稍微了解一下这些模型的训练方法。 以ChatGPT为例,它最重要的一个环节是语言模型的预训练。它所依赖的语言模型是来自OpenAI的GPT-3.5。以他的前身GPT3来说,训练这个模型的数据来源如下 来自https://en.wikipedia.org/wiki/GPT-3#GPT-3.5 从表里可以看到,即使是让普通人觉得已经无所不包的维基百科只占到了训练数据的3%,可见训练一个顶级的语言模型需要多少数据。训练的过程有点像填字游戏,让模型看一小段文本,让它猜测后面接着的文本是什么。是不是有点像人类的背诵? 而这么巨大的训练语料就意味着这个模型可能阅读过这个世界上相当大比例的文本,不管是书籍、论文还是博客文章,甚至是代码片段,这也是为什么ChatGPT可以有如此令人惊艳效果的原因。它看过的这些文本,最终是形成了一个巨大的概率分布,例如看到“世界”,它会知道后面也许会跟着“杯”或者“地图”,它们有着不同的概率。 所以这种模型的剽窃和作弊是隐性且抽象的,需要人类用问题把模型的知识“钩”出来。虽然稍微不一样的钩子就有可能从模型钩出很不一样的结果,但由于这写结果本质上都符合模型训练时语料的概率分布,所以很有可能就会触发剽窃和抄袭。这确实是一个两难的问题,如果没有这海量的训练数据,就没有令人惊艳的模型,但这么大量的数据要把版权问题搞得清清爽爽也绝不是一件易事。 但对人类创造力的扼杀的担心我觉得大可不必。首先,模型暂时还没有实时进化的能力,ChatGPT的训练数据停留在2021年,它并不知道2022年底中国会突然放开防疫政策,那以此为题材的创作显然与他无缘。 其次,真正的创造欲望和创造力哪会因为创作之后会有人剽窃就减弱?那是一种使命感,是不吐不快的感觉。 大家都知道保护知识产权有利于激发社会创新创造,但近几十年来的开源运动也证明了这不是唯一的路径。在人人为我我为人人的开源软件世界,这种开放反而极大地促进了技术的进步和传播。说不定以后在AI模型领域也会有这样的运动,人们贡献出自己产生的语料供模型学习,然后用适当的license系统保证产出的模型可以被合理、公平地被使用。 我在知乎的原回答

January 31, 2023 · 1 min · Yuanhao

以 ChatGPT 为代表的「大模型」会是多大的技术革命?如果要发生技术革命需要具备哪些条件?

作为一个近几年语言模型大潮的经历者谈一谈自己的看法。 ChatGPT is ’not particularly innovative,’ and ’nothing revolutionary’, says Meta’s chief AI scientist 上面一句话是Yann Lecun说的,虽然被网友群嘲柠檬精,但我是比较认同的。我感觉”大模型“确实是一个革命,但ChatGPT更适合作为这场革命阶段性胜利的一个里程碑。而其实这场革命的火种早就已经播下了。 这场革命如果往早了说,我觉得可以追溯到连接主义的诞生。 连接主义(connectionism),又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。 这一学派相信神经网络是实现人工智能的方式,上世纪40年代就出现了。但它的发展历程很曲折,经历过很多高光时刻,也多次陷入低谷 我们先来看一组数据: 人脑是一个极其复杂的器官,由大约1000亿个神经元、大致相同数量的非神经元细胞和数万亿个神经连接组成。 如果你希望要用神经网络来实现人工智能,自然的想法就是神经网络的规模要跟人类大脑相当。也就是说足够”大“会是一个非常朴素的需求,他并不是最近才出现的。 前几天横空出世的AI 爆款产品ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是GPT3.5 大模型,参数量多达1750 亿个。 从上面的数据可以看出,目前牛逼的神经网络参数量已经跟人脑的神经元数量相当了。但了解神经网络的朋友应该会知道,上面所说的GPT3.5的参数量实际上是要跟人脑中的神经连接数进行类比,而不是神经元个数。也就是说目前最牛逼的神经网络容量和我们的脑容量还有数量级的差距。 在当下,大部分人都会相信我们堆更大的模型用更多的数据还能够提高神经网络的能力。于是短短几年间,从BERT的1M参数已经进步到GPT3.5的175B参数。 但在若干年前,这个事情还不是这样,人们想大也大不起来。因为没有找到合适的结构,也没有合适的训练方法,可能硬件也不够给力来让神经网络越大越好这件事成为现实。直到Transformers模型和基于掩码的非监督训练方式出现,事情才发生转机。所以往近了说,这场革命应该归功于这两件事,ChatGPT的祖宗GPT在2018年就出现了。 要说这革命有多大,我感觉目前的结果还是不如前面第一和第二次工业革命大。那两次都是极大地改变了人类的生产方式,丰富了人类的物质生活,实现了例如探索宇宙这样之前无法办到的事情。现在的ChatGPT相比起来还差一些。但是AI4Science领域也有很多激动人心的结果,未来还有很大的潜力。 我在知乎的原回答

January 30, 2023 · 1 min · Yuanhao

目前ChatGPT 已应用到论文写作、剧本创作、媒体内容生产,是解放生产力的机会还是被AI支配的开始?

我感觉问题中的两个选项并不是互斥的,而且所谓被AI支配的开始甚至都不是一个合格的选项,为什么这个开始是ChatGPT,不是计算机的发明,甚至是二极管的发明呢?但是我认为说ChatGPT是“解放生产力的机会”还是比较靠谱的。 它解放生产力的能力已经被大量的报道了,以剧本创作为例,假如你有一个绝妙的故事创意,你可以让ChatGPT快速地帮你产生好几个版本的剧本。这种机器辅助的模式可以极大地增加内容生产的效率。 但ChatGPT并不是一个可以自主创作的人工智能,它是一个以对话机器人的形式呈现的算法模型。就像是一个从不主动说话,但几乎有问必答,且学富五车的人。要把它的知识或者创造力激发出来,需要有适合它的问题。而我一直觉得提问题是一个比回答问题更有难度、更体现创意的事情。还是以前面的剧本创作为例,正是因为你有了一个绝妙的故事创意,ChatGPT才能在此基础上写出一个好的剧本,你在这个创作中的贡献是无可替代的。 以此展开,人类创作者还有很多能力是ChatGPT目前不具有的,例如ChatGPT没有情绪。他不会因失恋而难过,也没法因为看到一个漂亮的风景而开心。但很多时候,情绪才是创作的源头。 也就是说,ChatGPT是一个次时代的工具,但创作的主动权,仍然在使用它的人类手上。或者可以说,ChatGPT只会作,而不会创。在内容生产领域如果说真的会被AI支配,我认为应该是被善于使用这种次时代工具的人支配。这也是我们大家可以在其中寻找的机会。如果一个人能够快速获取大量优质的prompt(也就是给ChatGPT的问题),那确实可以在内容生产这个行当里获得远高于一般人的经济回报。但我认为,在内容或者说创意行业,几乎不可能有个体或组织可以达到“支配”行业的程度。这是一个非常分散、个性化的行当,受众的喜好五花八门,萝卜青菜都有人爱。即使好莱坞再强,世界上的其他地方还是可以拍出叫好叫座的电影。 反过来看,今天ChatGPT可以做的事情有多少是真正的创作呢?回答一些答案明确的问题?完成一些格式相对固定的文案?写一个常见功能代码?AI是面镜子,可以让人类反思到底哪些工作是真正的创意工作。当基于统计的模型(ChatGPT也是基于统计的模型)可以把一个问题解决得差不离,那它的创意属性基本上就消失殆尽了。 我在知乎的原回答

January 30, 2023 · 1 min · Yuanhao