3.3.2 视频搜索的瓶颈与解决方案_短视频社区：产品、运营与商业化-QQ阅读女频现言网

上QQ阅读APP看书，第一时间看更新

3.3.2　视频搜索的瓶颈与解决方案

1.视频搜索的难点

尽管有着诸多优点，但视频搜索毕竟是随着短视频社区的崛起才在近几年发展起来的技术，尚存在诸多技术难点，在这里将逐一介绍视频搜索当前面临的难题。

（1）UGC稿件信息缺失或者失真

短视频社区内容占比较大的是UGC稿件，UGC内容质量往往参差不齐，这类稿件的标题和简介都存在文本质量差甚至缺失的问题，创作者可能只看中视频内容而忽视了标题和简介，但目前的视频搜索技术主要还是依赖于标题和简介的切词，这些信息的缺失将非常影响搜索的准确性。有的创作者为了提高视频被召回的概率，则会故意在标题或简介中添加一些热门词汇，而视频内容可能与这些热点毫无关系，这对搜索结果的相关性会造成极大影响。

（2）视频搜索头部查询词过于集中

图文搜索的内容结果所获取的流量相对分散，短视频的创作往往主要集中于一些热点事件和关键词，利用这些头部查询词能够搜出大量的短视频结果，而长尾查询词由于缺乏创作者，其视频搜索结果往往寥寥无几。由于头部查询词有着较多相关性高的视频，那么如何给不同人群分发更加合适的视频，也是一个需要解决的问题。

（3）视频搜索需要精准识别用户需求

视频搜索对用户需求的准确性要求更高，例如用户搜索“《指环王》前传的第二部电影”，系统不仅要理解“《指环王》前传”指的是《霍比特人》，还要找出霍比特人第二部的相关视频内容，而不能仅仅是将《指环王》相关视频的搜索结果返回给用户，这样做用户一定是不满意的。要做到这一点，还需要系统在视频内容的知识图谱方面下大量功夫去调研、打标、匹配，需要非常精细化的操作。

（4）视频搜索数据处理量巨大

图文搜索的数据量最多也就几兆字节，而一个清晰度较高的五分钟视频可能就有几百兆甚至几吉字节，假设每隔5秒抽帧，那系统处理这个五分钟视频相当于要处理几百张图片，将会大量消耗机器资源。

（5）视频内容版权保护问题

对于热门视频，平台需要保护其原创权益，需要对侵权视频进行打压、降权，同时平台也要注意屏蔽一些违规违法的视频内容。

2.视频搜索挑战

视频搜索想要保证准确性的前提是能够充分了解视频内容，然而视频内容的信息量往往非常丰富，不可能只通过简单的标题和简介就描述全面，而用户在检索过程中，针对相同的搜索关键词，其想要真正查找的内容差别非常大。基于前端用户需求与后台数据内容的复杂性，需要利用NLP（Natural Language Processing，自然语言处理）/CV（计算机视觉识别技术）来解构视频内容，全面理解视频内容。

视频搜索面临的挑战就是拆分视频的各个组成部分，包括人脸、文案、角色、音乐、动作、场景、情绪，将这些内容识别清楚并打上相应的标签，从而极大地提高系统对平台的理解能力。下面我们来逐一分析一下。

（1）人脸识别

视频内容出现了哪些人物角色？是明星、网红还是普通路人？如果是明星、网红，代表着该视频被搜索的可能性较高，标注该标签能够提升视频权重。

（2）文案提取

视频内容上除了创作者自己配上的字幕或者标语等文案之外，还有一些场景会露出文字信息，例如广告牌、对联、道路名称等，这些信息对我们识别视频的地点、背景信息有一定的作用。

（3）角色关系

不少短视频内容为了提高视频效果，采用一些反转剧情，设置了一些略复杂的角色关系，系统如果能够理解角色关系，打上相应标签，就能够帮助用户理解剧情。

（4）音乐插曲

音乐在短视频的组成部分里越发重要。现在有越来越多的音乐创作者将短视频社区作为音乐首发平台，系统甚至可以识别同类音乐爱好者来作为短视频推荐的一条召回通路。

（5）动作效果

通过运动轨迹捕捉，我们能让机器认识到短视频里的人物是在打篮球、踢足球、滑雪、静坐、躺着、回头、仰视等多种复杂的动作，通过对这些动作进行识别打标，可以增加一个理解视频的维度。

（6）场景识别

视频是攀登者在征服一座雪山，还是潜水爱好者在深海游荡，抑或只是学生在图书馆安静地自习，系统通过对视频场景、时间、地点的打标，能够支持视频搜索按照地点分类进行召回。

（7）情绪状态

视频内容的情绪状态能够作为视频打分的一个参考选项。由于平台还是倾向于推荐正面情绪的内容，弘扬积极阳光的正能量，因此对负向情绪内容的视频理应进行流量管控等操作。

3.多模态技术解决方案

前面提出了视频搜索的难点与挑战，我们发现最难的点还是视频内容理解，而业界广泛使用的多模态技术解决方案，就是为了提高内容理解能力，为视频打上各种各样的标签，补充缺失的信息。

我们来看下什么是多模态技术。每一种信息的来源或者形式，都可以理解为一种模态，内容的形态可以用文字、图片、音频、视频来承载，而短视频恰好同时具备了这四种内容形态。多模态技术解决方案，就是指解析短视频上的文字、图片、音频、视频等多种模态，提高短视频内容标签的丰富程度，全方位地理解视频内容。多模态技术主要改善了以下三方面的问题。

（1）单模态信息的单一化与片面化

在大量UGC视频只有文字信息的情况下，只基于标题和描述，比较难检索到合适的短视频内容。

（2）用户搜索目的日趋复杂

比如用户想知道某地的旅行攻略，他不仅想看文字介绍，也想获取风景视频信息，多模技术对内容的解析能够帮助搜索同时召回多样化的内容。

（3）创作者的需求

创作者需要找各种各样的视频素材进行二创，而这些素材并不是统一有规范标题的，这时候能够通过多模技术去解析视频，创作者有更大概率找到自己需要的小众视频素材。

目前市面上各家公司对多模技术的研究热情非常高，但其本质基本上大同小异，这里不去探讨具体的算法技术方案，而是理解多模技术的本质。多模技术是将图片、音频、视频等模态的信息降维到文本模态，使其回归到传统文本搜索的技术框架体系内，从而满足用户对各维度内容的搜索需求。

多模技术可以识别综艺节目中的不同明星，并在一期节目结束后自动生成多个单独明星专辑片段的短视频；多模技术可以追踪一期剧集中的观看人数、互动频率，对剧集每一分钟的热度进行考评，并自动生成精彩片段；在未来，多模技术还有更广阔的应用场景来改进视频搜索体验。