“孟总。”会议结束后,卓良才和曹爽来找孟谦。
“怎么了?”孟谦注意到两人的表情有点奇怪,示意两人入座。
“我们...”卓良才看了曹爽一眼,“我们想创业了。”
孟谦平静的喝了口茶,“什么创业项目?”
“未来的搜索。”
“未来的搜索?”孟谦倒是有点好奇了,“一点搜索的下一代搜索引擎?”
“不是。”卓良才,“是一次创..现在还不敢说是不是创造,但应该是一场颠覆。”
“具体说来听听。”
“就像你刚才说的那样,用第一性原理去颠覆,关键就是看清事务的本质,那么搜索的本质是什么。
在我们看来,搜索的本质就是提出问题。
而人在什么时候会提出问题,很显然,就是我们在遇到问题的时候。
那么这里就出现了一个问题,也就是及时性,现在的搜索引擎都是基于过去的电脑设计的,这个设计的最初逻辑就存在一个限制,那就是不可移动,因为在笔记本电脑普及之前,电脑可以说是不可移动的一个产品。
所以当我们遇到问题的时候,电脑能及时的出现在我们的身边么?仔细回忆一下我们会发现,大部分情况下电脑都不会在我们身边,比如我在外出过程中遇到问题,我就没有办法去搜索。
直到智能手机的出现,手机端的搜索引擎的出现才解决了这个问题,但作为可移动设备的手机还在使用基于不可移动的电脑逻辑设计的搜索引擎,这就让我们开始思考这个问题,这里边是不是存在问题?”
孟谦不自觉的把茶杯放下,卓良才的表述吸引到他了,“我举个最简单的例子,你在坐公交车的时候看到有人手里拿着一部鸿蒙3,而鸿蒙3的外形吸引到了你使得你想去了解一下。
这个时候有两种情况,第一是你知道它是鸿蒙3,你可以拿出手机打开一点搜索去搜索鸿蒙3,相关信息就出来了。
还有一种情况是你不知道这是什么手机,你又想知道这是什么,怎么办?你只能上去问一下,但如果你不好意思问怎么办呢?
这个时候,现有搜索引擎对于解决你此刻遇到的这个问题似乎显得有些乏力了。
于是我们开始在考虑,还有没有其他的办法去解决这个问题,直到我们想到一种可能性,如果我们可以让手机去认出我们好奇的目标,并由手机将结果反馈给我们,也就是通过手机自己的识别来完成搜索目的是不是有可能呢?
如果可能的话,我们是不是可以将其命名为,视觉搜索。
用户只需要打开摄像头对准目标,就能获取相关信息。”
“这只能算是视觉识别吧。”孟谦微微皱眉道,略有一点小失望,“只要把数据库搭建起来,把算法设计好,再过几年任何一款手机都可以拥有这个功能。”
“如果只是显示被拍摄物体的基本信息,那确实只是一个视觉识别,我们公司很快会攻克这一技术。
但如果再加上用户行为理解的话,它就不仅仅只是识别,可以进而演变成搜索功能了。
比如我们出去旅游,作为移动手机,它有你的定位,还有你的一系列数据,比如时间,近期行程,出行方式,因为借助移动手机,算法可以获取到的信息是超越这个图片或者视频本身的,那么算法就可以通过这些数据去猜测用户现在最想搜索的内容是什么并对搜索结果进行排序,出现像一点搜索那样的一系列反馈结果而不仅仅只是一个对象基本信息。
用户可以在这一系列反馈结果中找到自己想要的内容,当然,视觉搜索可以结合语音和文字输入,当算法判断错误的时候,用户可以通过语音和文字精细化所想要搜索的内容。
这种基于视觉的搜索应用会有很多可以期待的场景,比如学习,比如社交,比如户外商业化。”
“要同时实现视觉识别和用户理解,这个算法开发起来可不简单。”孟谦直接指出了困难,毕竟这是2019年都没有实现的技术,“光是最基本的视觉识别就存在很大的问题。
你这个视觉识别跟我们正在攻克的视觉识别还不一样,现在的计算机视觉技术发展是基于点状云的,也就是通过3d扫描物体,构建点状云,然后用点状云训练机器的算法,让机器能够辨识出这个物体,你们应该都很清楚。
然而这种计数原理更适用于室内,在识别物体和人脸方面会比较有效,到了户外识别能力就变得非常差,最常见的,随着光线的变化,建筑反光的颜色和强度会变化,阴影会变化,此外,建筑物周围的行人、停靠的车辆,也会影响机器对其的识别,你们准备怎么解决这个问题?”
“我们采用了另一种算法逻辑。”卓良才把准备好的平板放到孟谦的面前,“我们的识别基础是几何化,标签化。
首先我们必然要建立一个庞大的数据库,而且随着用户上传信息越来越多,我们的数据库也会越来越庞大。
其次,我们会对户外的物体进行特征性的几何化处理,比如山的形状,塔的形状,这些极具特征的形状,从而减少对光线等变化较大的信息的依赖。
然后我们会对数据库里的信息进行标签化,这个时候就像我刚才提到的定位,在知道用户在哪拍下这个图片的前提下,通过标签快速找出所在地,再结合几何信息就会很好确认目标。”
“你们最初开始考虑