AI知识库投喂:如何让机器“吃”出智慧,而不是“喂”出垃圾?
昨天我清理手机时发现相册里全是截图有菜谱、段子、新闻摘要、某个冷知识等这些都是乱七八糟的。那一刻我突然有了这样的想法我们的人脑难道不像一个杂乱无章的知识库吗什么东西都往里塞。那人工智能又如何我们常常提及“投喂”数据就这个词汇而言仔细思索一番倒是颇为有趣的。它究竟是类似于填鸭式的做法还是类似于精心调配膳食那样AI知识库投喂到底是什么意思实际来讲那是用于AI学习的“教材”。你得给它展示一万张猫的图片它才能够识别出猫。然而问题出现了要是你给它看的是品种猫大赛的图片它有可能就识别不出街边脏兮兮的流浪猫。教材的质量直接对AI的“眼界”以及“判断力”起到决定作用。这可不是随便“喂”就行的。我记着存在一个项目在开始的阶段运用网络论坛的对话去训练聊天AI那后来怎样了呢AI说话毫无根据且随意乱说还掌握了各种各样网络上的骂战行为这便是食用了“垃圾食品”所导致的结果只要数据出现偏见那么AI也会产生偏见并且还会将这种偏见予以放大。所以“投喂”是个技术活更是良心活。如何避免给AI知识库投喂垃圾数据首先是第一关那便是筛选并非所有的数据都能够符合被称作拥有“知识”的标准。网络之上的信息数量极为庞大然而其中存在着更多的噪音。包括虚假的新闻、广告性质的软文以及情绪化的宣泄等等这些都需要如同淘金那般将其过滤掉。得要人工去进行标注哎没错正是那种会让人觉得枯燥乏味的活儿要把图片当中的物体以框的形式给标识出来还要将对话里面所蕴含的意图划分成不同的类别。此项工作相当逆反人工智能可是恰恰就是人工智能具备智慧的起始之处。数据要干净还得多样。曾经存在一个图像识别系统其训练数据之中白人面孔占据多数。然而在对黑人进行识别之时准确率低得令人不忍直视。这种情况能够怪罪于AI吗毕竟它未曾见过呐。所以说在进行数据投喂时要注重均衡像肤色、场景、角度、光线等等方面越是丰富多样AI就会越“见过世面”。最惧怕的乃是单一来源仅仅采用一个论坛、一家媒体得出到的数据进而导致AI拥有变得狭窄的世界观。AI知识库投喂的数据从哪里来主食是公开数据集像它有1400多万张标注图片还分了两万多个类别这可是AI界的“经典教材”然而光吃经典容易脱离现实。于是实时数据是很需要的那一种像新闻、社交媒体之类的。这一部分呢类似生鲜新鲜倒着实新鲜然而存在风险。必须得进行清洗把敏感以及有害的信息给去除掉。这可是个无底洞呀毕竟网络每时每刻都在产出新得如同“食材”一般的东西哪。并且存在合成数据在现实情形里面对欠缺充足数据该如何应对举例来讲像是训练自动驾驶去识别极端事故情况总不可以真的去进行撞车行为于是便运用算法来模拟进而生成各种各样车祸场景下的图片与视频这也就是所说的“代餐”其有时候发挥的作用比真实的数据还要显著。重要的一环是用户反馈AI说错后由用户来纠正它这如同课后辅导那般属于最具针对性的“加餐”。投喂后的AI知识库如何维护更新并不是那种做一次就永远不用再管一直有效的。今天看来是正确的内容到了明天或许就不正确了。因为整个世界处于不断变化之中所以知识同样也在持续更新。就像去年很流行的梗到了今年有可能就已经不再流行了。就连AI知识库也需要进行更新换代。得进行持续的监控去查看AI在哪些地方老是出现错误思考是不是与之对应的“教材”陈旧了就好比新冠病毒从阿尔法毒株到奥密克戎毒株已经变化了好几轮倘若相关医学知识库不进行更新那么AI给出的信息便是错误的。每隔一定时间就要进行重复性的“复习”动作以及带有检验性质的“考核”行为且运用全新的测试题目去对其展开考查从而找到存在不足的环节随后依据具体情形有针对性地增添数据这是一种周而复始现象不存在终了的节点。有时侯需要将一些过时或者有害的知识“洗掉”从技术层面来讲这被称作“遗忘学习”然而实际做起来难度颇大举例来说要让你忘掉一个错误的观点并非轻易之举。所以维护比初期投喂更磨人。低质量投喂会对AI产生什么影响就会使其变得狭隘会认为世界就是它所“吃”下去呈现出的那般模样要是给它看了过多成功学内容那么它或许会觉得失败是不可接受的倘若给它看了过多对立言论它也许就会变得充满攻击性。更为糟糕的是会将社会偏见予以放大。倘若招聘AI采用了历史上带有性别歧视的招聘数据那么它便会使这种歧视得以延续居然还自以为是地认为自己颇为客观。这是由于它“学习”到的“规律”便是如此这般存在着。并且还能够“胡言乱语”。对于那些杂乱无章的数据AI就会毫无条理乱说一通进而生成一些貌似合乎情理但实际上荒诞不经的内容了。我们把这种情况称作“幻觉”。它有可能会非常认真严肃地告知你鸡是有着六条腿的究其原因在于它所接触的数据里存在着书写错误。最令人恐惧的是这些所产生的影响属于隐性的你并非能够即刻察觉。等到察觉到的时候或许已然对诸多决策造成了影响。想想就有点后怕。未来AI知识库投喂的发展方向是什么兴许会愈发“个性化”并非是凭借一套通用教材来通吃局面 而是依据不同的用途 去定制不一样的“营养餐” 教育AI与医疗AI 所学习的核心知识必定是存在差异的。在进行该项“投喂”操作期间也会变得越发自动化且更加智能借助AI去筛选以及生成用来训练那种AI的数据所呈现出宛如责令高年级学生协助老师编订教材的情形但在此处务必要倍加留意切不能形成闭环进而滋生出怪异无比的“近亲繁殖”模式标点符号。对于数据伦理的要求将会极其高数据的来源数据的用途数据对于隐私的保护都会成为备受关注的要点不能够偷偷地使用用户的数据不能够暗藏任何歧视或许需要如同食品制成成分表那般出现类似于所标明数据的“营养成分”以及“潜在风险”的“数据标签”。说不定我们最后会建成一个公众的、具备高品质的基础知识储备库恰似数字时代的“公共图书馆”。所有的人工智能均能够自这里吸纳到最为纯净、最为基础的知识滋养。然后再去学各自的专业。实际来讲往AI之中填充知识好似教导一回幼童。你向它展示什么内容教给它哪些东西它便会成长为那般模样。于我们的手中攥着一把能够塑造未来智能状态的钥匙。这责任可不轻。不能仅仅只去想办法使它变得聪慧还要进一步去思索要让它变得和善变得公正化身成为水准更加出色的“思考者”这般情形也许才算是投喂所具备的最终极的意义所在吧。