利用AI技术实现Medium文章的高效中文翻译

在深入学习大模型的过程中,我们常常需要查阅Medium上的技术文章。Medium作为一个流行的内容发布平台,汇集了大量高质量的技术和科学文章,对于希望紧跟技术前沿的学习者来说,是一个宝贵的知识库。然而,这些文章大多为英文,对于非英语母语的读者来说,阅读和理解可能存在障碍。英文文章的阅读不仅需要较高的语言能力,而且在理解专业术语和复杂概念时可能会遇到困难,这无疑增加了学习的难度和时间成本。即便使用一般的翻译软件,文章中的类似图片和链接也会丢失掉一些重要信息,这对于我来说,也是不能接受的。

因此,开发一个高效的翻译工具,将这些文章翻译成中文,对于提升学习效率和理解深度具有重要意义。这样的工具不仅可以帮助读者快速获取信息,还能促进知识的传播和共享,使得更多的人能够受益于这些优质内容。通过利用人工智能技术,特别是LLM大模型开发,我们可以实现文本的自动翻译,从而打破语言障碍,让知识无国界,更可贵的是,我要保留文章中的图片和链接的有效。

概念解释

在深入探讨如何实现这一高效的翻译工具之前,我们先来了解几个关键的技术概念:

Streamlit

Streamlit是一个强大的Python库,专门用于快速构建和共享数据应用程序。它提供了一个简单直观的界面,使得开发者可以轻松地创建交互式的Web应用,这对于展示和操作数据非常有用。详细介绍可参阅我的另一篇文章:全面对比dify、coze、streamlit、chainlit

LangChain

LangChain是一个框架,用于构建和集成多种语言模型。它支持多种预训练的语言模型,使得开发者可以根据需要选择合适的模型来处理不同的语言任务,如文本翻译、摘要生成等。详细可以了解我的这个合集:LangChain入门

通过结合这些技术,我们可以构建一个既高效又用户友好的翻译工具,帮助用户轻松地翻译Medium上的技术文章。

实现思路

获取文章内容

首先,我们需要通过Medium API获取指定ID的文章Markdown内容。这一步骤是整个翻译流程的起点,确保我们能够获取到原始的文章内容。

文本分割

由于文章可能较长,直接翻译整个文档可能会影响翻译质量和效率。因此,我们使用文本分割器将长篇文章分割成适合处理的小块,这样可以更高效地进行翻译。

翻译处理

接下来,我们利用预训练的语言模型对每个文本块进行翻译。这一步骤是核心,它涉及到将英文文本转换为中文,同时保持原文的语义和结构。

输出翻译结果

最后,我们将翻译后的文本块整合,保持原有的Markdown格式输出。这样,用户可以方便地阅读翻译后的文章,同时保持原文的格式和结构。

通过这一系列的步骤,我们能够实现一个既准确又高效的翻译工具,帮助用户跨越语言障碍,更好地学习和理解技术文章。

代码实现解析

环境配置与API密钥设置

在构建高效的AI翻译工具之前,首先需要确保环境配置正确,特别是API密钥的设置。API密钥是访问外部服务,如Medium API和翻译服务的关键。在代码中,我们通过环境变量DEEPSEEK_API_KEY来管理API密钥,这样可以确保密钥的安全性,避免直接暴露在代码中。

with st.sidebar:
    if os.environ.get("DEEPSEEK_API_KEY") is None:
        openai_api_key = st.text_input("Deepseek API Key", type="password")
        "[Get an Deepseek API key](https://platform.deepseek.com/)"
    else: 
        openai_api_key = os.environ.get("DEEPSEEK_API_KEY")

界面构建

使用Streamlit创建用户界面是实现交互性的关键步骤。我们的界面包括一个输入框和一个提交按钮,用户可以在这里输入Medium文章的ID,并触发翻译过程。
界面

with st.form("my_form"):
    text = st.text_input("id:", placeholder="请输入medium文章的id")
    submitted = st.form_submit_button("Submit")

核心翻译函数

generate_response函数是实现文章翻译的核心。它首先通过Medium API获取文章的Markdown内容,这里我使用了rapidapi开放接口封装成tool来获取文章内容,然后使用文本分割器将文章分割成小块,最后利用预训练的语言模型对每个文本块进行翻译,并将翻译结果整合输出。

@traceable
def generate_response(input_text):
    llm = LLMs(model_name="glm-3-turbo", temprature=0.7).get_llm()
	system_prompt = """你是一位专业的技术文章翻译专家。我们将进行一次多轮对话,你需要将一篇英文 Markdown 文章翻译成中文。
请按照以下规则进行:
1. 我会每次提供文章的一部分内容,你需要将其翻译成中文。
2. 请不要添加任何其他文字即可。
	"""
	prompt = PromptTemplate(input_variables=["context"], template="{context}")
	# 如果article.md存在,就直接读取,如果不存在,则写入
	if os.path.exists(f"articles/{input_text}.md"):
		with open(f"articles/{input_text}.md", "r") as f:
			article_markdown = f.read()
	else:
		with open(f"articles/{input_text}.md", "w") as f:
			medium_tool = med_art.GetMediumTool()
			article_markdown = medium_tool.run(input_text)
			f.write(article_markdown)
	  
	memory = ConversationBufferMemory()

chain = LLMChain(llm=llm, prompt=prompt, memory=memory)
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=0, separators=["\n\n"])
    texts = text_splitter.split_text(article_markdown)
    chinese_translation = ''
    for text in texts:
        result = chain.run(text)
        chinese_translation += "\n\n" + result
        st.write(result)
    return

获取文章的tool即:GetMediumTool,通过调用rapidapi的接口,来获取文章,该接口免费版本每月有一定的额度,需要自行解决网络问题才能使用。

class GetMediumTool(BaseTool):
    name = "custom_api_tool"
    description = "一个用于根据文章id获取medium文章的工具"
    args_schema: Type[BaseModel] = Input

    def _run(self, article_id: str) -> str:
        """使用该工具调用API"""
        base_url = "https://medium2.p.rapidapi.com"
        headers = {
            "X-RapidAPI-Key": os.environ.get("RAPID_API_KEY"),
            "X-RapidAPI-Host": "medium2.p.rapidapi.com"
        }
        url = f"{base_url}/article/{article_id}/markdown"
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        result = response.json()['markdown']
        print(type(result))
        return result

    def run(self, article_id: str, verbose: bool = False, color: str = 'black', callbacks=None, llm_prefix='', observation_prefix='') -> str:
        """调用工具的入口函数"""
        if 'Observation:' in article_id:
            import json
            dict_data = json.loads(article_id.replace('\nObservation:', '').replace("'", "\""))
            article_id = dict_data['article_id']
        # 判断article_id是个json字符串
        if isinstance(article_id, dict):
            article_id = article_id['article_id']
        return self._run(article_id)

多轮对话翻译

为了提高翻译的连贯性和准确性,我们引入了多轮对话翻译机制。通过对话记忆,系统可以记住之前的翻译内容,从而在后续的翻译中保持上下文的连贯性。

memory = ConversationBufferMemory()
chain = LLMChain(llm=llm, prompt=prompt, memory=memory)

通过上述步骤,我们不仅实现了文章的自动翻译,还确保了翻译的质量和用户体验。这种结合AI技术和编程工具的方法,为解决实际问题提供了有效的解决方案。

文本分割与处理

generate_response函数中,我们使用了RecursiveCharacterTextSplitter来分割文章。这种分割器能够根据文本中的自然分隔符(如换行符)来分割文本,确保每个文本块在语义上相对独立,便于后续的翻译处理。

text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=0, separators=["\n\n"])
texts = text_splitter.split_text(article_markdown)

这里,chunk_size设置为2000字符,确保每个文本块不会过大,以便于翻译模型处理。chunk_overlap设置为0,意味着每个文本块之间没有重叠,这样可以减少翻译时的冗余。

翻译与输出

翻译过程中,我们利用预训练的语言模型对每个文本块进行翻译,并将翻译结果实时显示在Streamlit界面上。这不仅让用户能够即时看到翻译进度,也便于用户对翻译结果进行实时检查和反馈。

for text in texts:
    result = chain.run(text)
    chinese_translation += "\n\n" + result
    st.write(result)

每次翻译完成后,翻译结果会被添加到chinese_translation变量中,并显示在界面上。这样,用户可以逐步查看翻译结果,确保翻译的准确性和连贯性。

多轮对话翻译的实现

多轮对话翻译通过ConversationBufferMemory实现,它允许系统记住之前的对话内容,从而在后续的翻译中保持上下文的连贯性。这种机制特别适用于处理长篇文章,可以确保翻译的整体一致性。

memory = ConversationBufferMemory()
chain = LLMChain(llm=llm, prompt=prompt, memory=memory)

通过这种方式,系统能够在翻译过程中不断学习和调整,以适应文章的特定风格和术语,从而提供更加精准和自然的翻译结果。

最终效果

总结

通过本项目,我们不仅实现了一个高效的Medium文章翻译工具,还深入了解了如何结合AI技术和编程工具来解决实际问题。这不仅提升了个人学习效率,也为其他需要翻译服务的场景提供了参考和启示。通过Streamlit构建的交互式界面,用户可以轻松地输入文章ID并获取翻译结果,整个过程直观且高效。此外,多轮对话翻译机制的引入,进一步提高了翻译的质量和用户体验,使得翻译结果更加准确和自然。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/657561.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STL库--string

目录 string的定义 string中内存的访问 string常用函数实例解析 string的定义 定义string的方式跟基本类型相同,只需要在string后跟上变量名即可: string str; 如果要初始化,可以直接给string类型的变量进行赋值: string s…

据库管理-第196期 实战RDMA(20240528)

数据库管理196期 2024-05-28 数据库管理-第196期 实战RDMA(20240528)1 环境2 操作系统配置3 配置NVMe over RDMA4 挂载磁盘处理并挂载磁盘: 5 RDMA性能测试6 iSCSI部署7 iSCSI性能测试8 性能对比总结 数据库管理-第196期 实战RDMA&#xff08…

大数据Hadoop之-工具HIVE(一)

大数据Hadoop之——数据仓库Hive HIVE介绍Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。 在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理…

设计模式:装饰模式(Decorator)

设计模式:装饰模式(Decorator) 设计模式:装饰模式(Decorator)模式动机模式定义模式结构时序图模式实现在单线程环境下的测试在多线程环境下的测试模式分析优缺点适用场景应用场景应用实例模式扩展参考 设计…

shell中编写备份数据库脚本(使用mysqldump工具)

mysqldump备份 目录 mysqldump备份 分库备份 分表备份 利用自带工具mysqldump 实现数据库分库分表备份。 要想知道需要备份哪些数据库,就得先列出来 mysql -uroot -pOpenlab123! -N -e show databases | egrep -on_schema|mysql|performance_schema|sys" …

【Mybatis】映射文件中获取参数的类型是集合或数组处理

基本数据类型的参数或者对象作为参数的情况,在Mybatis还有一些特殊处理的参数类型要特别注意:如果参数类型是集合Collection(List,Set)或者是数组,Mybatis也会把这些类型的参数封装在一个Map对象中传递到xm…

使用Python发送电子邮件

大家好,当我们需要迅速、方便地与他人沟通时,电子邮件是无疑是一种不可或缺的通信工具。无论是在个人生活中还是工作场合,电子邮件都是我们日常生活中的重要组成部分。它不仅能够传递文字信息,还可以发送附件、链接和嵌入式多媒体…

CANDela studio使用小tips

打开软件的时候注意先选择英文,因为双击CDD/CDDT文件默认打开的是德文,所以最正确的打开方式是先打开CANDela studio,再导入CDD,不仅可以避免用德文打开,还能避免vector软件的bug。 不同的版本有不同的权限。 admin有…

uni微信小程序input框过滤中文字节以及规定以外的符号

问题描述 需求是输入账号只能为手机号、邮箱、字母和数字组成的字符串,那么就是所有大小写字母、数字、以及符号 - _ . 四种。 条件限制 微信小程序无法直接通过type属性实现,type属性中没有专门为只允许英文字母的输入类型。详情见input | uni-ap…

【Python】搭建pypi私仓

1. 下载依赖 pip install pypiserver # 命令安装 pypiserver 库 pip install passlib # passlib 包来读取 Apache htpasswd 文件apt-get install -y apache2-utils2. 生成密码 使用htpasswd库在指定路径/path/to/.pypipasswd生成密码文件 htpasswd -c /path/to/.pypipasswd …

数据结构之堆(优先级队列)

前言 在上一章我们讲了二叉树,这一节我们来讲堆(优先级队列),所以想知道堆创建,可以看一下二叉树的一些简单概念。http://t.csdnimg.cn/4jUR6http://t.csdnimg.cn/4jUR6 目录 前言 堆 1.概念 2.优先级队列的模拟实…

补环境——A股市场

补环境 吐环境 1.Proxy对象 Proxy对象由两个部分组成:target、handler target:目标对象 handler:是一个对象,声明了代理target的指定行为,支持的拦截操作,一共13种: get(target,propKey,receiver)&…

【全开源】酒店订单管理系统源码(FastAdmin+ThinkPHP)

一款基于FastAdminThinkPHP开发的旨在为民宿、酒店、宾馆等提供房态、订单、财务、客史等数据化、信息化的智慧管理工具,实现一站式订房管理,帮助酒店、民宿、宾馆提升管理效率,降低管理成本,提升行业竞争力。 打造高效、便捷的酒…

为什么c语言不对0和NULL做严格的区分?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「c语言的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!这个答案很简单:c语言不区分…

ubuntu中idea创建spark项目步骤

1.前置条件 ubuntu中已经安装idea,jdk,scala,spark 2.打开idea,新建,选择Maven项目 3.在IDEA中,File-Setting-Plugin,下载Scala插件 4.File-project structure,导入插件 4.1在全局库中,选择导入刚才的sca…

HTML 页面布局

慢慢生活,慢慢变好 —— 24.5.28 页面布局 盒子: 页面中所有的元素(标签),都可以看做是一个盒子,由盒子将页面中的元素包含在一个矩形区域内,通过盒子的视角更方便的进行页面布局 盒子模型组成: 内容区域(content)、内边距区域(pa…

什么是知识中台?为什么企业需要知识中台?

如今市面上的企业数不胜数,企业的任何一个小细节都会产生很大的影响。近几年来一直很热门的知识中台备受企业关注。关于如何高效地管理、整合和运用知识,成为了每一家企业都在重点关注的问题。而知识中台,就是为了解决这一问题而诞生的一个全…

鸿蒙开发接口UI界面:【@ohos.router (页面路由)】

页面路由 说明开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。页面路由需要在页面渲染完…

如何在生产环境中以非 Root 用户启动 Kafka

目录 如何在生产环境中以非 Root 用户启动 Kafka1. 创建 Kafka 用户2. 设置目录权限3. 配置 systemd 服务文件4. 启动和启用 Kafka 服务5. 验证 Kafka 服务经验总结 为了在生产环境中以非 root 用户(如 kafka 用户)启动 Kafka,您需要确保 Ka…

Unity之如何使用Localization来实现文本+资源多语言

前言 使用Unity实现本地化(Localization)功能 在当今的游戏开发中,支持多语言已成为一项基本需求。Unity作为主流的游戏开发引擎,提供了强大的本地化工具,使开发者能够方便地为游戏添加多语言支持。本文将介绍如何在U…