本文介绍了 123RF 如何通过使用亚马逊 Bedrock 实现翻译成本的显著降低。通过应用先进的技术和适应性的 AI解决方案,该公司不仅减轻了财务压力,还提高了翻译质量和效率。
在不断发展的数字内容行业中,多语言的可访问性对全球扩展和用户互动至关重要。领先的免版税数字内容提供商 123RF 通过使用 AmazonOpenSearch 服务改进图像发现,并在 2023 年实现了基于向量的语义搜索。建立在这一成功的基础上,该公司现在已实施 Amazon Bedrock和 Anthropic 的 Claude 3 Haiku,从而大幅提升了内容审查和翻译的效率,进一步增强了他们的全球业务能力。
尽管 123RF 在英语用户中取得了显著成功,但由于标题和关键词均为英语,导致其在其他 15种语言中的内容发现遇到困难。使用谷歌翻译进行持续翻译的费用过高,而其他模型(如 Anthropic 的 Claude Sonnet 和 OpenAIGPT-4)并不经济。这样,123RF 开始寻找更可靠且价格合理的解决方案,以提升多语言内容的发现能力。
本文探讨了 123RF 如何利用 Amazon Bedrock、Anthropic 的 Claude 3 Haiku以及向量存储有效翻译内容元数据,大幅降低成本,并提升全球内容发现能力。
在实施基于生成 AI的语义搜索和图像生成之后,他们在英语用户中看到了显著的用户参与。然而,这种成功突显了他们全球策略中的一个关键缺口:他们的数字资产库—包括数百万幅图像、音频文件和动态图形—亟需对非英语使用者进行类似的改造。
问题的核心在于其内容的性质。用户生成的标题、关键词和描述—是数字资产搜索的命脉—主要以英语呈现。为了真正服务于全球受众并充分挖掘他们的资产库,123RF需要将这些元数据翻译成 15 种不同的语言。但是,他们很快发现,通往多语言内容的道路充满了财务和技术挑战。
当 123RF深入探索这一挑战时,他们发现了超越简单逐字翻译的复杂性。例如,成语的翻译难度很大。像“早起的鸟儿有虫吃”如果逐字翻译,就无法如西班牙语的类似成语“Aquien madruga, Dios le ayuda”传达原意。另一个重要的挑战是命名实体识别(NER)—这是一个处理多种视觉和音频内容服务的重要方面。
这项技术涉及准确识别和处理专有名词、品牌名称、特定术语和文化相关引用。例如,艾菲尔铁塔的库存照片在所有语言中应保留其名称,而不是逐字翻译。同样,品牌名称如可口可乐或耐克在任何目标语言中都应保持不变。
这一挑战在创意内容领域尤为突出。假设一幅名为“年轻女性在星巴克使用 MacBook”的库存图片。理想的翻译系统需要做到以下几点:
这些细微差别凸显了简单机器翻译工具的局限性,强调了对更复杂、上下文感知解决方案的需求。
在寻找解决方案的过程中,123RF 探索了一系列选项,各自具有不同的权衡:
这一探索揭示了人工智能翻译领域的基本挑战:在成本和质量之间似乎存在无法避免的权衡。来自顶级模型的高质量翻译在财务上不可行,而更经济的选择却无法满足 123RF 业务所需的准确性和一致性标准。
是一种完全托管的服务,提供来自领先 AI 公司(如 AI21Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和亚马逊)的高性能基础模型选择,通过单一 API提供所需的广泛功能,以构建具备安全性、隐私性和负责任 AI 的生成 AI 应用程序。
在这一转型过程中,亚马逊 Bedrock 成为 123RF 成功的基石。多种因素助力其成为首选供应商:
123RF 翻译旅程的第一个突破是与 AWS 团队合作,利用亚马逊 Bedrock 和 Anthropic 的 Claude 3 Haiku的力量。成功的关键在于创新性地应用提示工程技术——一套旨在从 LLM 中挖掘最佳性能的策略,这对于经济高效的模型尤其重要。
提示工程在处理 LLM时至关重要,因为这些模型虽然强大,但可能输出非确定性的结果—这意味着对于相同输入,其响应可能会有所不同。通过精心设计提示,我们可以提供上下文和结构,以帮助减缓这种变化。此外,设计良好的提示能够引导模型专注于特定任务,确保 LLM 聚焦于最相关信息并生成与预期结果对齐的输出。在 123RF 的案例中,这意味着指导模型生成准确的、上下文相关的翻译,保留原内容的细微差别。
让我们深入了解所采用的具体技术。
团队开始为 AI 模型分配特定角色—即 AI语言翻译助手。这一步看似简单,但对设置模型任务的上下文至关重要。通过定义其角色,模型能够以专业翻译者的思维方式处理任务,考虑到细微差别和复杂性,而非普通语言模型可能忽视的内容。
例如:
您是 AI 语言翻译助手。 您的任务是将一段文本从英语精确翻译成指定语言。
在翻译文本与翻译指令之间实现明确的划分。这一分离具有两个目的:
例如:
待翻译文本如下: <text> {{TEXT}} </text> 请将上述文本翻译成此语言: {{TARGET_LANGUAGE}}
解决方案中最创新的一个方面是实现了一个临时思维区。这使得模型可以外部化其思考过程,模仿人类翻译人员可能处理复杂段落的方式。
临时思维区促使模型考虑以下内容:
这个逐步思考过程显著提高了翻译的质量和准确性,尤其是对于复杂或细致的内容。
团队在提示中包含多个高质量翻译示例。这一技术称为 K-shot 学习,为模型提供了 K 个在所需输出质量和风格中的具体实例。
通过精心选择展示不同翻译挑战(例如习语、技术术语和文化引用)的多样示例,团队有效地训练了模型以处理多种内容类型。
例如:
示例: <text>早起的鸟儿有虫吃。</text> <translated_text>El que madruga, Dios leayuda.</translated_text>
这些技术的结合产生了一个包含高质量、上下文相关翻译所需要素的提示模板。以下是一个包含前面步骤的示例提示。实际使用的提示未在此处显示。
您是 AI 语言翻译助手。您的任务是将一段文本从英语精确翻译成指定语言。待翻译文本如下: <text> {{TEXT}} </text> 请将上述文本翻译成此语言: {{TARGET_LANGUAGE}} 仔细思考,在下面的 <scratchpad> 区域考虑您将如何翻译文本,同时保留其完整的含义和细腻度。请考虑: - 段落的整体含义和意图 - 可能无法逐字翻译的成语和表达 - 写作的语气、形式和风格 - 不应翻译的专有名词,如人名和地名 - 英语和 {{TARGET_LANGUAGE}} 之间的语法差异 示例: <text>软件更新定于下周二。</text> <translated_text>La actualización del software está programada para el próximomartes.</translated_text> <text>突发新闻:埃隆·马斯克以 440 亿美元收购 Twitter。</text> <translated_text>Última hora: Elon Musk adquiere Twitter por 44 mil millonesde dólares.</translated_text> ... [再提供 8 个多样的例子] ... 现在请在 <translated_text> 标签中提供您的最终翻译版本。确保翻译在 {{TARGET_LANGUAGE}} 中尽可能准确和自然。请勿翻译任何名称、地点或其他专有名词。 <translated_text>
该模板为在广泛内容类型和目标语言中提供一致高质量翻译奠定了框架。
尽管初步实施取得了显著成果,AWS团队建议通过动态提示技术进一步提升。该高级方法旨在使模型更具适应性和上下文感知。他们采用了检索增强生成(RAG)技术,创建动态提示模板,其中包含与每个短语相关的 K-shot 示例,而不仅仅是针对每种语言的通用示例。这也使 123RF 能够利用其现有的高质量翻译目录,进一步调整模型。
团队建议为每种目标语言创建一个向量数据库,存放过去的高质量翻译。该数据库将作为翻译示例的丰富库,捕捉细微差别和领域特定术语。
实现过程包括以下组件:
这种结构化的方法存储和检索文本-翻译配对,使得有效且上下文相关的查找成为可能,显著提高了 LLM 生成的翻译的质量和相关性。
向量数据库中最匹配的示例将动态插入到提示中,为模型提供高度相关的特定翻译任务上下文。
这带来了以下好处:
以下是一个动态生成的提示示例:
[标准提示引言] ... 示例: <text>{{动态插入的相似源文本 1}}</text> <translated_text>{{相应的高质量翻译 1}}</translated_text> <text>{{动态插入的相似源文本 2}}</text> <translated_text>{{相应的高质量翻译 2}}</translated_text> ... [标准提示的其余部分]
这种动态方法使模型能够不断改进和适应,利用不断增长的高质量翻译数据库为未来任务提供信息。
以下图解说明了流程工作流。
![dynamic prompting with删除)
该流程包括以下步骤:
Leave a Reply