图像标签背后的技术原理及应用场景
导语
图像标签服务在互联网很多行业中有非常广泛的应用。
- 我们每天使用的手机相册,可以把我们手机里的成千上万张图片分类成宝宝、风景、聚会、合影、建筑等,让我们更方便地找到想要的图片,浏览美好的回忆画面;
- 信息流新闻APP、短视频APP,可以越用越“懂”我们,推荐我们喜欢看的内容;
- 一些智能手机或浏览器,只需拍摄一张图片,就可以识别出图片中的植物、动物、商品,进而展示科普信息,或推荐到电商网站进行购买。
以上这些便利的功能,都使用了图像标签。它们背后的AI算法是如何读懂一张图片的呢?图像标签还有哪些应用?希望这篇文章可以回答你的疑问。
图像标签算法简介
通过为图像分配正确合适的标签,将图像的视觉信息转换为语义信息,有助于人们更好地理解与分析图像。图像标签包括了图像单分类和图像多标签分类的问题。图像单分类,即在一组固定的分类标签集合中,对于输入图像从分类标签集合中找出一个与图片内容匹配的分类标签分配给该输入图像。而在现实世界中,一幅图像往往包含丰富的语义信息,如多个目标,场景,行为等,图像多标签分类则旨在为图像分配多个标签以充分表达图像中所包含的具体内容。
基于卷积神经网络的图像分类算法
对于一张图片,人们可以自然地辨认出图片中的主要物体、场景及其相互关系,但这对计算机而言却是一个困难的工作。计算机眼中的图像是一个数组,数组中的每个数字表示图像中一个特定位置上的像素值,一张1600*900大小的图像就有超过一百万个像素点。计算机需要将这样的数组转化为高层次的语义信息。
得益于深度学习的发展以及大规模图像标注数据集的发布,图像识别的精度得到了大幅提升,神经网络强大的非线性表征能力在图像分类任务上取得了突破性的进展。卷积神经网络CNN是专门设计用于处理具有空间拓扑结构的数据的神经网络,比如图像、视频、声谱图等数据。传统的神经网络的全连接层在处理这些维数较高的数据时,会面临参数众多、训练漫长且难于收敛的问题。而卷积神经网络中的卷积层,可以大幅减少模型的参数,加速训练网络参数的收敛速度。此外,卷积操作与动物视觉中枢的视觉细胞感受野的原理有异曲同工之处,尤其适合用于处理视觉信息。图像分类算法就是基于强大的卷积神经网络设计的。
(图片来源:http://deeplearning.net/tutorial/lenet.html)
卷积神经网络主要包括卷积层和池化层,卷积层通过用固定大小的滤波器与整个图像进行卷积;池化层则是一种降采样操作,通过取卷积得到的特征图中局部区块的最大值、平均值来达到降采样的目的。网络中还会加入非线性变化的激活函数,加强网络的表达能力。在网络最后通常是若干个全连接层和一个分类器。在图像单分类的任务中,卷积神经网络的输入是图像的三维数组,输出是softmax分类器在分类标签集合上预测的每个标签的概率,分数最高的标签即为该图像的预测类别。在大规模的标注数据集上,计算机学习出的一组模型参数,可以通过一连串的数值运算将输入的图像矩阵转化成一组分类标签的预测分数,从而为输入图像打上了一个标签类别。
针对弱数据的多标签分类算法
图像多标签分类模型的训练则面临了比单分类更多的挑战,尤其是数据的问题。首先,随着多标签分类的标签类别数量增加,标注难度大幅增加:标签定义界定困难、细分类标注需要专业知识、漏标注严重等。其次,拉通整合各种来源的数据集,不可避免的引入了标注不完全和噪声的问题。而这样的弱标注数据尤其加大了多标签分类模型的训练难度。
对于多标签分类模型,我们采用了自研的新型的损失函数,有效缓解了多标签数据中标注不完备以及噪声多的问题。多分类中常用的bce loss在不考虑未知标签的情况下会有梯度过小、难以收敛的问题,新型的损失函数利用标注已知标签的比例来进行归一化,忽略未知标签类别的loss,与标准的bce相比,其值与每个样本的已知的标签类别数量无关,对于每个样本给与同等的权重,可以适应不同样本已知标签类别数量不均衡的情况。在训练过程中,通过该损失函数忽略大部分不完全标注的标签,同时引入部分随机噪声,增强了模型的鲁棒性。
此外,引入课程学习(Curriculum Learning)相关的策略、以及层次预测的方法有效利用了多标签数据中标签的依赖关系、层级关系等,使得多标签分类模型可以对于图片输出高精度、多样化、全面的标签。
除了基于图片整体对图片内容给出描述的图像标签算法,为了更精准识别出图中不占主体位置、但仍具有重要语义信息的内容,图像标签引擎中还包含了物体检测的模块。该模块关注识别图中特定的物体目标,可以同时得到目标的类别信息和位置信息。我们采用了基于MobileNet躯干基础网络、结合SSD+FPN的物体检测模型,可以在保证速度可用性的情况下精准识别图片中出现的物体。
虽然近年来图像标签任务,尤其是ImageNet等分类比赛上的结果趋近饱和,但是现实中的图像任务仍然有很多的困难和挑战,如长尾标注数据获取困难、训练数据与应用场景差异巨大、类别不均衡以及现实场景中负样本形态多变等。针对这些问题,我们除了通过设计更鲁棒的算法,也通过培养高效的标注团队、扩宽数据来源、打通bad case反馈机制等方法,有效地支持了高精度图像标签的实现。
腾讯云图像标签服务介绍
腾讯云图像标签服务,使用多年积累的海量各场景图片训练,可以识别图片中的场景、物品、人物等信息,包含八个大类、六十多个二级分类、数千个标签。
针对典型的行业和图片数据特征进行了定制,目前提供三个版本供选择:
- 摄像头版:针对搜索、手机摄像头照片进行优化,涵盖大量卡证、日常物品、二维码条形码。
- 相册版:针对手机相册、网盘进行优化,去除相册和网盘中不常见的标签,针对相册常见图片类型(人像、日常活动、日常物品等)识别效果更好。
- 网络版:针对网络图片进行优化,涵盖标签更多,满足长尾识别需求。
另外针对电商、广告场景,还推出了更精准的商品识别。涵盖25个大类、数百个细分类别,并可以输出商品坐标。
使用场景
除了大家常见的相册、信息流等,图像标签还有很多应用。
AI场景营销
如何在不影响用户体验的情况下增加广告数量、广告转化,是流量主、媒体最大的痛点。传统的视频前广告、生硬的弹出广告,已经无法引起用户的兴趣,可以投放的位置也已经饱和,很难让广告营收继续快速增长。
采用AI图像理解服务,例如图像标签、明星识别、商品识别等,可以对视频内部进行更加深入的理解,得到视频中每个时间点的内容标签,这样每个时间点都可以成为投放广告的点位,极大增加了可售卖的广告位。
同时,将每个点位的标签与广告进行匹配,可以让合适的广告在合适的时间出现,例如当出现某个明星时推荐他代言的产品,当出现聚餐场景时推荐餐厅优惠券,当出现运动场景时推荐健身设备。让用户在最感兴趣的时间点看到广告。
拍照识图
随着AI的普及,拍照识图也慢慢成为了一种用户习惯,看到新奇的植物、不认识的明星、不知道如何分类的垃圾、别人穿的好看的衣服,都可以随手掏出手机,拍张照片就可以找到想要的信息,搜到感兴趣的商品。不仅可以满足小朋友旺盛的好奇心,还能帮大人们更愉快的剁手。
图片搜索
现代人面临的一个巨大问题就是信息爆炸,每天我们都会拍摄几张照片,而通过各种IM工具接收到的图片更是不计其数。
这些图片虽然保存在我们的手机、电脑、IM软件的聊天记录中,但是在我们想用的时候却怎么都找不到。我想各位一定遇到过想找身份证等证件照片,明明知道就在手机里或某个微信聊天记录里,可花了半天就是找不到的情况。
图像标签可以让图片数据更加可管理、可检索,在各种网盘、相册、图库,甚至IM软件中,都可以利用标签增加数据查找的便利性。
广告时间
腾讯云图像分析是综合性的图像理解和分析服务,除图像标签外,还提供多种图像理解、审核、处理服务,如商品识别、公众人物识别、智能裁剪等,欢迎大家试用。
腾讯云官网地址:https://cloud.tencent.com/product/tiia
产品功能介绍:https://cloud.tencent.com/product/tiia/details
腾讯云图像分析每个客户可以享受每月10,000次免费调用,方便测试效果。
另外,官网体验中心(https://cloud.tencent.com/act/event/tiiademo)可以直观感受各种服务效果。
如何接入?
账号创建与控制台服务开通;
https://cloud.tencent.com/product/tiia/getting-started
API 接入参考: