在这篇文章中,我们将探讨如何使用Amazon Bedrock中的LLM来提取文本并深入理解图像中的信息。
Amazon Bedrock是一个完全托管的服务,提供来自AI公司(如AI21 Labs、Anthropic、Cohere、Meta、MistralAI、StabilityAI和Amazon)的高效基础模型(FMs),通过单一API进行访问。它还提供一整套构建生成性AI应用的能力,同时确保安全性、隐私和负责任的AI实践。
在本帖子中,我们展示了如何使用Amazon Bedrock上的模型,从图像、表格和扫描文档中提取信息。以下是一些示例:
我们还探讨了具体的应用案例,展示了Amazon Bedrock如何帮助您从图像中生成信息:
截止目前,物体分类和检测的最佳算法基于卷积神经网络。然而,像Anthropic的Claude 3Sonnet这样的LLM也能够使用零样本提示来执行这些任务,即在没有提供具体示例或训练数据的情况下向模型给出任务。在下面的示例中,我们演示如何根据提示中的类别对图像进行分类。以下图像是一个的澳大利亚医疗卡。
删除)
我们使用以下提示与Anthropic的Claude 3 Sonnet进行图像分类:
这是客户申请贷款时上传的文档。该图像可以属于四个类别中的一个:身份证、银行对账单、申请表或水电费账单。请确定该文档的类别,并只给我类别名称。现在不需要其他信息。
我们收到了以下LLM的回复:
根据提供的图像,该文档的类别似乎是身份证或识别证件。图像显示的似乎是医疗卡或类似的政府签发的身份证明文件,上面显示了姓名和识别号码。
删除)
虽然它正确识别了类别,但返回的JSON格式响应会使处理更为简单。因此,我们在提示末尾添加如下内容:
以JSON格式提供响应,键为“class”,值为文档的类别
我们得到的响应为:
json { "class": "ID" }
现在,您可以使用您选择的库(例如Python的库)读取JSON响应。
在下一个示例中,我们使用Meta的Llama 3.2 90B Vision模型从图像中识别一个物体。以下图像是一个齿轮箱。
删除)
我们使用以下提示来识别图像中的齿轮箱:
识别此图像中的整个机械部件。仅以JSON格式提供机械部件的名称,键为“name”,值为机械部件的名称。
以下截图展示了提示和模型的回答。
删除)
在下一个示例中,我们展示了如何读取图表,并插值和外推图表中的值。以下图表显示了一些国家的人口增长情况()。
删除)
我们将此图像传递给Anthropic的Claude 3 Sonnet,并使用以下提示:
从此图表中创建印度的人口表,第一列为年份,第二列为以百万计的人口。每5年创建一行,起始年份为1950,到2025年。
我们要求模型每5年创建一行,因此模型必须进行插值。同时,我们要求将表格延续到2025年,因数据仅至2021年,模型需要外推值。我们得到的响应如下:
以下是印度的人口表,第一列为年份,第二列为以百万计的人口,从1950年到2025年,每5年一行:
| 年份 | 人口(百万) | |------|--------------------------| | 1950 | 357.6 | | 1955 | 390.5 | | 1960 | 427.8 | | 1965 | 468.0 | | 1970 | 510.9 | | 1975 | 556.9 | | 1980 | 605.7 | | 1985 | 658.0 | | 1990 | 713.8 | | 1995 | 773.0 | | 2000 | 835.6 | | 2005 | 901.7 | | 2010 | 971.5 | | 2015 | 1045.0 | | 2020 | 1122.0 | | 2025 | 1202.4 |
外推结果可能不够准确,这也是传统机器学习(ML)方法能发挥作用的地方。
您还可以要求模型将自身知识与图表中的知识相结合。以下提示要求提供该图表中2021年各国人口及其首都:
能否创建一个2021年的人口表,第一列为国家名称,第二列为人口(百万),第三列为该国的首都?
以下截图展示了响应。
删除)
删除)
LLM已根据图表及其自身关于各国首都的信息填充了表格。
您还可以尝试更复杂的内容。以下图像是来自天气图。
删除)
您可以向LLM提出具体问题,例如:
这是澳大利亚的降水图。目前在悉尼下雨吗?
您无需告知LLM悉尼的位置或该图像是降雨情况。
我们得到的响应为:
根据降水图,悉尼地区似乎没有显著的降水发生。该图使用等高线和颜色表示降水水平,但在悉尼周围没有阴影区域或等高线表示在该时间段内有降雨。因此,可用数据表明在该降水图所表示的时间,悉尼可能没有下雨。
从这个用例中有几个有趣的观察:
您可以使用Meta Llama 3.2 90B Vision模型读取AWS架构图。以下是一个现代化应用架构图的示例,使用微服务与配合。
删除)
我们使用以下提示读取此图:
此图中的步骤通过数字1到11进行解释。数字显示在蓝色方块中。您能否使用1到11的数字解释图,并说明每个步骤发生了什么?
以下截图展示了我们得到的LLM响应(为简便起见已截断)。
删除)
此外,您还可以基于此图进行后续提问:
在此架构中,我们为什么需要网络负载均衡器?
以下截图展示了模型的响应。
删除)
可以看到,LLM现在充当您关于该架构的顾问。
然而,我们的用途并不仅限于软件工程。您还可以读取来自工程、建筑和医疗保健的图表和图像。
/media/vpn_article_14698_image_11x.webp)的过程图。
删除)
若要了解此过程图的内容并描述该过程,您可以使用以下提示:
您能命名示例中显示的过程吗?同时使用编号步骤描述该过程,按从左到右的顺序进行。
以下截图展示了响应。
删除)
LLM理清楚了该图是为了生产氨的哈柏过程,并描述了过程步骤。
您可以识别和分类图像中发生的动作。模型通过分析上下文信息(如周围物体、环境和个体或实体在图像中的位置)的能力,进一步增强了准确识别动作的能力。通过结合这些视觉线索和上下文元素,Anthropic的Claude3 Sonnet能够对所执行动作的性质做出明智的判断,从而为图像中描绘的场景提供全面的理解。
以下是一个示例,我们不仅可以对运动员的动作进行分类,还可以将该动作与专业运动员进行比较并提供反馈。
我们向模型提供了以下网球运动员的图像。该图像是使用Stability AI(SDXL 1.0)模型生成的。
删除)
以下截图展示了提示和模型的响应。
删除)
在市场营销和产品开发领域,想出一个完美的产品名称和创意推广内容可能具有挑战性。借助Anthropic的Claude 3Sonnet的图像到文本能力,您可以上传产品图像,模型可以生成独特的产品名称并为目标受众定制推广语。
对于这个示例,我们向模型提供了以下运动鞋图像(该图像是使用Stability AI(SDXL 1.0)模型生成的)。
删除)
以下截图展示了提示。
删除)
以下截图显示模型的响应。
删除)
在零售和电子商务领域,您还可以利用Anthropic的Claude 3 Sonnet从图像中提取详细的产品信息进行库存管理。
例如,我们使用以下截图中的提示。
删除)
以下截图展示了模型的响应。
删除)
您可以上传房产平面图和房屋内部及外部的照片,然后获取用于房地产列表的描述。这对房地产经纪人在宣传房产时提高创造力和生产力非常有帮助。建筑师也可以利用这种机制向客户解释平面图。
我们向模型提供了以下示例平面图。
删除)
以下截图展示了提示。
删除)
以下截图展示了响应。
删除)
您还可以使用Anthropic的Claude 3Sonnet根据菜肴的图片创建食谱。然而,默认情况下,模型只能识别训练数据集中包含的菜肴。成分替代、烹饪技巧和文化差异可能会带来显著挑战。
例如,我们向模型提供了以下蛋糕图像以提取食谱。该图像是使用Stability AI模型(SDXL 1.0)在Amazon Bedrock中生成的。
删除)
以下截图展示了提示。
删除)
模型成功识别该菜肴为“黑森林蛋糕”,并创建了详细的食谱。尽管结果可能不完全是图示的蛋糕,但确实接近黑森林蛋糕。
![](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4
Leave a Reply