本篇文章3931字,读完约10分钟
与英语相比,它更难理解。在英语中,每个单词都可以用机器直接读出,但汉语在分词方面更困难。让我们举几个例子。
“你|老张|急什么|啊”
“你|老张|什么嘴|呀”
以上是一个简单的列表。如果你修改一个单词,意思会不同,机器几乎不能根据不同的单词来区分它。然而,下面的列表将被丢弃。
“乒乓球的拍卖结束了”
如何划分机器?这很难,这台机器可以区分两种意思
“乒乓球|拍卖|结束”
“乒乓球|球拍|卖光了”
然后困难来了。我们如何告诉机器如何在这个句子中划分单词?它对人来说非常简单,可以根据上下文立即识别,但对机器来说却极其困难。
2、句子分析技巧
分词问题解决后,就是分析句子的问题。请看下面两句话
“谢霆锋|是谁|子”
“谁是谢霆锋|子|”
对于机器来说,这两个句子得到的关键词切分信息是一样的,分别是“谢霆锋”、“谁”和“儿子”。我们怎么能告诉计算机语义因为顺序不同而不同呢?
这需要对语言进行深入的分析和对语义的理解,以便知道他们所寻找的答案是不同的。做到这一点也不容易。
3.上下文相关的分析技术
在分析一个句子之后,机器自然地推断出分析一篇文章的内容。
《信息简史》中有一条非常重要的信息原则,即当我们需要传递信息时,我们需要大量的冗余信息来保证信息的准确性。无用的废话越多,传输信息的准确性就越高,这也是基于机器理解句子的相同原理。
但问题是,人们可以依靠直觉来捕捉关键信息,而机器依靠什么来捕捉关键信息呢?如何识别真正的信号和噪声?这也是一项关键技术。
让我们看下面三列
我们可以看到,在搜索“天空为什么是蓝色的”时,百度并没有把文章的前半部分,而是自动提取了中间的关键答案。当与搜狗搜索和360搜索,它没有总结最好的答案,但只把文章的前半部分。这表明搜狗和360搜索还有可持续改进的空空间。
4、事件分析技术
在解决了分析文章的问题之后,我们必须爬到一个更高的层次,让机器系统地分析一个事件,也就是说,增加时间的维度,收集与一个事件相关的所有关键文章,然后我们就可以还原一个历史事件的过程。
当我们搜索“斯诺登”时,根据时间线将出现以下标题。
左边是百度的事件排序,中间是360的事件排序,最右边是搜狗搜索的结果。
在事件分类技术上,百度和360已经能够识别,但搜狗目前还没有这样做。
事件排序是最困难的技术,也是如何使机器在最高水平上理解语言。
第二个关键是知识挖掘技术
1、知识地图技术的建立
首先,让我们假设我们在机器中存储了上亿个实体知识,这对机器来说并不困难,但是很容易。很难存储实体之间的关系。一个实体对应多个属性,如品牌、颜色、木材等。这些属性有数百亿个级别。当这些关系错综复杂地整合在一起时,要存储的数据将呈指数级增长,这注定是一张超级大规模的地图。
如何制作地图?以下面的句子为例
奢侈品牌路易威登于1854年在法国巴黎创立
那么机器应该如何存储知识呢?
1)奢侈品和路易威登(将路易威登视为一个品牌和奢侈品,并存储这一知识)
2)路易威登成立于1854年(确定路易威登的创建时间并存储这一知识)
3)路易·威登在法国巴黎成立(承认路易·威登在法国成立,并储存这一知识)
4)法国巴黎(确定法国和巴黎之间的关系,并存储此知识)
5)……
以上只是一个粗略的理想化的场景,王博士没有说什么更详细的。我想在这里补充一点,事实上,这种映射总是动态的,并且有一个不断添加和删除的过程。每个句子中的知识是根据时间线出现的大数据关键词内容。根据统计后建立的知识地图,像人脑一样,这些关系知识地图出现又消失,最后那些不可辩驳的关系被抛在后面,但这些仍然是动态的。如果法国的首都不再是巴黎,整个关系知识地图数据库将更新所有数据。
2、知识推理技术
当知识地图建立后,需要做的是实际应用,将这些知识地图应用到实际的实现中。当用户搜索问题时,他在数据库中搜索关系图,然后向用户呈现具有最高相关性的准确答案。
1)直接推理。
让我们找一个“刘德华多大了”的例子。
当我们搜索这个问题时,搜索结果会直接显示刘德华的年龄,即运用知识的推理能力。这53岁是一个动态的结果。在幕后做了大量计算后,机器知道获取年龄是一个动态算法。在得出结论之前,有必要从当前时间中减去这个人的生日。
同样,当我们搜索“谢霆锋儿子的父亲的母亲的前夫”时,我们得到的结果是“谢贤”,这也是推理背后的技术作用。
2)分类推理
上面讨论了简单直观的推理模型,但是它只在用户对问题有明确答案时才起作用,但是当用户搜索没有唯一标准答案的问题时就不再起作用了。那么这里将使用分类推理技术。
例如,当用户搜索“观赏鱼”时。
本次搜索没有指定唯一的标准答案,所以机器从背景知识系统库中提取“观赏鱼”的相关分类内容,列出所有相关结果,并给出各种观赏鱼的结果,这样用户就可以找到自己想要的结果。顺便说一下,这里比较了三个搜索结果。百度的搜索结果是最全面的,其次是搜狗,而360没有分类。
通过大数据对背景中的实体知识进行分类是一种基于线性直接推理的高级集成推理。
分类推理不仅能提供直接的结果,还能给用户带来额外的相关和有用的结果。当我们搜索“关羽”时,以下结果将显示在搜索结果的右侧。
左上角是百度的搜索结果,右上角是360的搜索结果,左下角是搜狗的搜索结果。
这些结果不是人工输入的,而是通过大数据挖掘获得的。三家公司都能挖掘出关羽的相关信息,但百度挖掘得更深,挖掘出关羽与刘备的关系以及《丢丢的故事》。这种挖掘隐藏信息的方式是大数据价值的核心。大数据的价值不在于大,而在于挖掘有价值的关联,然后提取其他价值。举个简单的例子,通过大数据挖掘,我们发现面包店里的某个面包会卖得更好,而且有这样一种隐藏的关系,所以店主只需要准备更多的蛋糕就能带来更多的好处。
第三个关键是人的建模技术
机器开发智能的最终目的是与人互动,因此机器理解人的行为是必要的。只有理解了人的行为,机器才能把知识应用到与用户的互动中,商业化的价值才能最终实现。
1、个性化建模
所谓个性化建模是指根据单个用户的操作行为为其提供个性化定制服务。“今日头条”是一种个性化的建模技术。当用户浏览新闻时,它会根据用户的行为轨迹向用户推荐感兴趣的内容。同样,百度搜索引擎也是如此。当用户搜索更多关键词时,百度将能够向他们推荐更多有趣的内容。
例如,当用户搜索关键字“sf”时。
如果用户经常访问百度动画相关的帖子栏,搜索相关动画人物的名字、音乐等,那么一个关于动画的网站将会排名第一,但是如果用户经常搜索与快递相关的知识,SF网站将会排名第一。
这种对个人的精确建模,在未来数据更加丰富的情况下,每个人都会被数据所保存,我们所有的行为都会被数据所可视化,然后我们所有的相关结论都会被得出。目前,数据采集和建模技术已经成熟,其余的都在等待物联网的浪潮。
2、群体建模
仅仅塑造个人是不够的。对机器来说,最重要的是对群体进行建模,这是商业化价值的核心。
所谓群体建模就是判断某个场景中人数最多的人的行为,收集他们,然后得到各个场景中群体的交集,进而得到具有特定属性的人经常做出的选择。
这些人的特征包括:地域、漫画爱好者、美国戏剧爱好者、父亲、高考学生...
这些人的行为包括:看动漫,看美国电视剧,搜索育儿知识,搜索高考知识...
该机器通过背景中的判断对群体的属性和行为进行分类,然后允许相关高层官员为商业决策寻找支持。
上面的内容还是有点抽象,所以让我们简单点。例如,我们预测某个地区30岁以上的人在近期会有很强的购买长裤的需求,所以商家在推广长裤时只需要增加该地区的广告就可以获得更高的利润回报。当然,这里不再是企业主动寻找答案,而是机器在挖掘后主动提供一系列选项,企业只需要被动地接受它。
结论:
从某种意义上说,经过一段时间的发展,破解图灵测试是可能的。
然而,无论这项技术多么先进,它都需要驱动“电池”,即由人类产生的数据,这更确切地说是人类的愿望。
在我看来,只有商业和军事在推动技术,它们分别代表着欲望和恐惧。在这个和平的时代,我们很幸运,我们从对战争的恐惧中被拯救出来,剩下的是无尽的渴望。在科技与人日益密不可分的纠缠中,我们将迎来一个欲望与科技超级混合的新世界。
未来会发生什么?请注意微信公众账户“机心”。
这篇文章是作者独立的观点,并不代表老虎嗅探网络的立场
向作者提问并加入语料库
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0