第102章 BPE算法完成!
第102章 bpe算法完成!喝完粥后,閔欣柔去洗碗。
吴辰则打开电脑,把给康寧药厂的解决方案写成了一份文档。
前后时间总共花了不到半个小时。
但这份文档,却能为他赚100万。
等明天钱到帐后,就又是1000点的技能点到帐。
等梁嘉诚帮自己把深圳的地皮搞定后,他就可以从系统商城中买设备生產初级的显卡了。
伸了个懒腰,忙碌了一天的吴辰也感受到了一丝倦意。
他站起身想回臥室睡觉,一转头才发现閔欣柔还坐在旁边看著自己,吴淑芬则在她纤细的大腿上呼呼大睡。
“你怎么不去睡觉,有什么问题吗?”
吴辰问。
閔欣柔似乎走神了。
她连忙挪开目光,神情有些慌张。
不过说到问题,她又冷静了下来,不好意思道:“老师,我在实现bpe算法的时候发现merge规则很怪,词表切出来全是单字,英文还被拆成一个一个字母。”
“我看看。”
吴辰坐到她身边,看向了她的屏幕。
从上次他帮閔欣柔理清思路后,小姑娘的工作果然进入了正轨。
她先花了两天从天涯上抓取了5000条高质量的帖子,並且將贴子的每一个部分都分成了標题、
內容两个部分。
除此之外,每个贴子还包含了至少5条有效回復。
而且她没有像最开始的200多条数据那样去標记各种顏色,甚至还加粗加下划线来標註重点。
因为那是给人看的。
这一次的数据数据,完全就是最原始的数据。
虽然这项工作的绝大部分时间都是在机械的复製和粘贴,十分考验耐心。
但它的成果,也是用来训练人工智慧大语言模型最佳的分词语料。
吴辰运行了一下她的分词算法程序。
果然如閔欣柔所说,虽然能运行,但生成的分词结果却不对。
但这个问题应该不是语料质量不够。
吴辰一时也想不明白,必须要仔细看一下她的代码才能发现问题。
101看书 海量小说在 101 看书网,101??????.??????任你读 全手打无错站
干是他道:“你帮我去泡杯咖啡,然后把菸灰缸拿过来。”
閔欣柔站起身,一瘤一拐的先去把菸灰缸拿了过来。
但她犹豫了一下道:“老师,今天太晚了,您要是累了的话就先休息,我再研究研究,明天您再帮我看也是一样的。”
“不用。”
吴辰直接拒绝了。
深夜才是调试代码的最好时机。
没有產品经理在旁边bb,没有沙雕同事突然把资料库弄坏,也没有閒著没事干的领导突然要开站会。
见他態度坚决,閔欣柔便没有再劝,而是乖乖去厨房了。
“喵!”
閔欣柔都没说什么,倒是刚刚睡在她大腿上的吴淑芬不满了。
吴辰瞅了它一眼,当即给了几个耳刮子。
这傻猫不知道在叫什么,要是他们现在不努力,它哪还有罐罐吃。
等閔欣柔泡好咖啡回来后,吴辰已经把她的代码基本看了一遍,並且已经发现了问题。
於是喝了一口后,他立即开始指导了起来。
“首先,你在这个地方的pair频次统计用的不对,你遍歷的是vocab的键,完全忽略了每个词条的出现次数,所以每一轮选出来的最频繁符號对其实並不频繁。”
pair频次统计在bpe分词算法中,是用来决定每一轮要合併哪一对相邻符號的。
只有把词频权重算进去,merge规则才会稳定收敛。
閔欣柔把它的代码写成了这样:
这就导致她每轮合併挑到的pair像抽籤一样,越训练越碎,最后分词当然乱。
盯著吴辰指出的地方看了半天,閔欣柔才若有所思的开口。
“老师,是不是要在遍歷时加权,而且合併时还要考虑边界?”
“没错。”
吴辰夸奖了一句。
他果然没有看错人。
閔欣柔靦腆的笑了起来。
不过吴辰看她笑了半天,也不见她动手改代码,於是提醒道:“改啊。”
“啊,是您看著我改吗?”
閔欣柔有些吃惊。
“不然呢,难道我帮你改?”
吴辰奇怪的反问。
“呃,好————”
閔欣柔扭捏著靠近了一点,然后在吴辰的注视下敲起了键盘。
不过她好像有点走神,一个简单的vocab.items()写了好几次没运行成功。
“认真点。”
吴辰把手敲了敲她的脑袋。
被教训的閔欣柔缩了缩脖子。
不过看到吴辰认真的眼神,她也终於收敛思绪,开始认真思考了起来。
这一次,她改代码的效率明显提升了不少。
两个小时后,代码终於被改好了。
最终的代码是这样:
怀著激动的心情,閔欣柔运行了程序。
她並没有直接对5000条数据进行分词,因为那会花几十个小时。
所以她先用100条数据进行了测试。
在程序运行的几分钟里,閔欣柔感觉异常的紧张。
虽然吴辰教过她许多理论知识,但这还是第一次手把手的教她实际写代码。
这种感觉很奇妙。
所以一定要成功呀————
少女在內心祈祷著。
等程序终於运行完成后,她忐忑的点开了生成的分词文件。
成功了!
这一次,程序分词后的文件终於不是满屏单字和黏连的碎片了,而是规整的子词序列!
就像这样:
閔欣柔忍不住小小的欢呼了一声。
与此同时,系统也发来了一条提示。
【人工智慧:1级(30%—&gt:50%)】
这一次,就连吴辰也忍不住笑了起来。
完成bpe算法,竟然一次性提升了20%的进度!
这样的话,他只要完成transformer架构的设计,那就能晋升人工智慧2级了!
而等他这个月拿到科大讯飞和搜狗他们的数据,再加上自己马上可以生產的专用显卡的话————
那gpt—1级別的人工智慧大语言模型,在2008年底的时候就有望完成!
虽然当年openai完成这一步的时候没引起什么反响,但吴辰却有自己的计划。
已经足够顛覆某些行业了!
“乾的不错!”
想到閔欣柔替自己省了两个月的时间,吴辰忍不住高兴的拍了拍她的脑袋瓜子。
“唔————谢谢老师。”
閔欣柔也很开心。
不过她还是道:“老师,现在只是小规模的测试,完整的分词表还没做好呢,而且5000条帖子的数据不一定够呢!”
“已经很不错了,等讯飞他们把数据送过来就行,剩下的时间你继续完善bpe算法,到时候直接就可以用了。”
吴辰不在意道。
对他来说,这种没有太多技术含量的工作交给別人就好。
他要全力以赴的完成transformer架构的开发了。
閔欣柔並不知道他的打算,不过她只要能帮吴辰完成工作就很开心了。
两人开心了一会儿后,吴辰想起一件事。
“这个成果足够写一篇论文了,等待程序运行的时候你可以学习一下怎么写论文。”
“我可以吗?”
閔欣柔愣了一下。
抱歉今天更新晚了,主要是为了那几张截图写代码花了太久的时间。
>
