Python - epub2txt

文章目录

    • 关于 epub2txt
      • 安装
    • 命令行使用
      • 查看 options
      • 常见用法
      • 示例1
    • Python 代码调用
    • manual
      • absl.app:
      • absl.logging:
      • epub2txt.__main__:
      • absl.flags:


关于 epub2txt

Convert epub file to txt

  • github : https://github.com/ffreemt/epub2txt

安装

pip install epub2txt

命令行使用

查看 options

epub2txt --helpfull

输出较多,见文末


常见用法

# convert test.epub to test.txt
epub2txt -f test.epub

# browse for epub file, txt file will be in the same directory as the epub file
epub2txt

# show epub book info: title and toc
epub2txt -i

# show more epub book info: title, toc, metadata, spine (list of stuff packed into the epub)
epub2txt -m

# show epub2txt version
epub2txt -V

示例1

epub2txt -i

终端输入以下命令,系统将弹出文件夹,让用户选择 文件;然后产生结果如下:

晨间日记的奇迹(精排版)
[('封面', 'text00000.html'), 
('作者序', 'text00002.html'), 
('给所有台湾的心灵之友们', 'text00003.html'),
 ...
('参考文献', 'text00077.html'), 
('结\t语', 'text00078.html')]

Python 代码调用

from epub2txt import epub2txt
# 从网络 epub 转换
url = "https://github.com/ffreemt/tmx2epub/raw/master/tests/1.tmx.epub"
res = epub2txt(url)   # res 为字符串类型


# 从本地 epub 文件
filepath = r"tests\test.epub"
res = epub2txt(filepath)

# output as a list of chapters
ch_list = epub2txt(filepath, outputlist=True)  
# chapter titles will be available as epub2txt.content_titles if available
# 一个章节作为 输出list 的一个 item,效果如下

在这里插入图片描述


manual

epub2txt --helpfull

USAGE: /Users/xx/miniconda3/bin/epub2txt [flags]


flags:

absl.app:

  • -?,--[no]help: show this help
    (default: ‘false’)

  • --[no]helpfull: show full help
    (default: ‘false’)

  • --[no]helpshort: show this help
    (default: ‘false’)

  • --[no]helpxml: like --helpfull, but generates XML output
    (default: ‘false’)

  • --[no]only_check_args: Set to true to validate args and exit.
    (default: ‘false’)

  • --[no]pdb: Alias for --pdb_post_mortem.
    (default: ‘false’)

  • --[no]pdb_post_mortem: Set to true to handle uncaught exceptions with PDB post mortem.
    (default: ‘false’)

  • --profile_file: Dump profile information to a file (for python -m pstats). Implies --run_with_profiling.

  • --[no]run_with_pdb: Set to true for PDB debug mode
    (default: ‘false’)

  • --[no]run_with_profiling: Set to true for profiling the script. Execution will be slower, and the output format might change over time.
    (default: ‘false’)

  • --[no]use_cprofile_for_profiling: Use cProfile instead of the profile module for profiling. This has no effect unless --run_with_profiling is set.
    (default: ‘true’)


absl.logging:

  • --[no]alsologtostderr: also log to stderr?
    (default: ‘false’)
  • --log_dir: directory to write logfiles into
    (default: ‘’)
  • --logger_levels: Specify log level of loggers. The format is a CSV list of name:level. Where name is the logger name used with logging.getLogger(), and level is a level name (INFO, DEBUG, etc). e.g. myapp.foo:INFO,other.logger:DEBUG
    (default: ‘’)
  • --[no]logtostderr: Should only log to stderr?
    (default: ‘false’)
  • --[no]showprefixforinfo: If False, do not prepend prefix to info messages when it’s logged to stderr, --verbosity is set to INFO level, and python logging is used.
    (default: ‘true’)
  • --stderrthreshold: log messages at this level, or more severe, to stderr in addition to the logfile. Possible values are ‘debug’, ‘info’, ‘warning’, ‘error’, and ‘fatal’. Obsoletes --alsologtostderr. Using --alsologtostderr cancels the effect of this flag. Please also note that this flag is subject to --verbosity and requires logfile not be stderr.
    (default: ‘fatal’)
  • -v,--verbosity: Logging verbosity level. Messages logged at this level or lower will be included. Set to 1 for debug logging. If the flag was not set or supplied, the value will be changed from the default of -1 (warning) to 0 (info) after flags are parsed.
    (default: ‘-1’)
    (an integer)

epub2txt.main:

  • --[no]debug: print verbose debug messages
    (default: ‘false’)
  • -d,--dest: destintioin folder to save the epub file, if left empty, set to the same folder where tmx file is located
    (default: ‘’)
  • -m,--[no]detailed-info: print more detailed book info and exit
    (default: ‘false’)
  • -f,--filename: tmx filename (can be gzip or bz2)
    (default: ‘’)
  • -i,--[no]info: print book info and exit
    (default: ‘false’)
  • -V,--[no]version: print version and exit
    (default: ‘false’)

absl.flags:

  • --flagfile: Insert flag definitions from the given file into the command line.
    (default: ‘’)
  • --undefok: comma-separated list of flag names that it is okay to specify on the command line even if the program does not define a flag with that name. IMPORTANT`: flags in this list that have arguments MUST use the --flag=value format.
    (default: ‘’)

2024-03-24(日)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/486867.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

这个极其适合新手的Facebook聊单模式!必学!极度友好!

基于现在的网络流量来说,Facebook不仅仅是个人的社交圣地,更加是很多卖家的黄金市场,背后蕴藏着无限的商业潜力。对于刚刚踏入电商领域的新手而言,Facebook这个平台是个很好地展示产品、吸引客户,并实现销售的地方。 …

【刷题】滑动窗口精通 — Leetcode 30. 串联所有单词的子串 | Leetcode 76. 最小覆盖子串

送给大家一句话: 充满着欢乐与斗争精神的人们,永远带着欢乐,欢迎雷霆与阳光。 —— 赫胥黎 滑动窗口精通 前言Leetcode 30. 串联所有单词的子串题目描述算法思路 Leetcode 76. 最小覆盖子串题目描述算法思路 Thanks♪(・ω&#xf…

WorkPlus AI助理,为企业提供智能化客户服务,助力企业发展与竞争力

在当今竞争激烈的商业环境中,提供优质高效的客户服务是企业取得成功的关键。而AI智能客服的崛起,以其卓越的性能和功能,助力企业提升客户服务体验。WorkPlus AI助理作为一款领先的解决方案,能够实现智能化客户服务,满足…

TTS通用播放库技术设计

TTS音频播放库技术设计 目录介绍 01.整体介绍概述 1.1 项目背景介绍1.2 遇到问题1.3 基础概念介绍1.4 设计目标1.5 问题答疑和思考 02.技术调研说明 2.1 语音播放方案2.2 TTS技术分析2.3 语音合成技术2.4 方案选择说明2.5 方案设计思路2.6 文本生成音频 03.系统TTS使用实践 3…

如何在CentOS7部署openGauss管理系统并实现固定公网地址连接

文章目录 推荐前言1. Linux 安装 openGauss2. Linux 安装cpolar3. 创建openGauss主节点端口号公网地址4. 远程连接openGauss5. 固定连接TCP公网地址6. 固定地址连接测试 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不…

抖音小店怎么做?起店流程大分享,可收藏!

大家好,我是电商糖果 会开店,但是不会起店。 这是不是很多电商商家遇到难题,尤其是刚开始做抖音小店的商家。 店开好几月也没有流量,不出单。 这里糖果就来分享一下,我这边自己总结的起店流程。 不敢自夸是最好的…

类和对象三部曲(one)

都说C语言是面向过程,分析出求解问题的步骤,通过函数调用来逐步解决问题。 拿洗衣服来举例,C关注的是一个过程: 那么C是什么呢? 面向对象的编程语言。 面向对象对象指什么? 象棋里的对象么?…

大模型时代5个最顶级的向量数据库

大家好,数字时代推动我们进入了由人工智能和机器学习为主导的时代,向量数据库已经成为存储、搜索和分析高维数据向量的不可或缺的工具,本文将介绍5个顶级的向量数据库。 1.Chroma 使用ChromaDB构建LLM应用程序 Chroma是开源嵌入数据库。Chr…

医疗行业对SDWAN专线的需求

随着信息技术的发展和医疗行业的数字化转型,SDWAN(软件定义广域网)作为一种新兴的网络解决方案,越来越受到医疗机构的重视和应用。医疗行业对SDWAN专线的需求主要体现在以下几个方面: 1、高度可靠的网络连接 医疗机构…

YOLOv9改进策略:卷积魔改 | DCNv4更快收敛、更高速度、更高性能,效果秒杀DCNv3、DCNv2等 ,助力检测 | CVPR2024

💡💡💡本文改进内容: DCNv4来自CVPR2024 的论文,它不仅收敛速度明显快于DCNv3,而且正向速度提高了3倍以上。这一改进使DCNv4能够充分利用其稀疏特性,成为最快的通用核心视觉算子之一。 改进结构…

CDP7 下载安装 Flink Percel 包

下载链接:https://www.cloudera.com/downloads/cdf/csa-trial.html 点击后选择版本, 然后点击download now,会有一个协议,勾选即可,然后就有三个文件列表, 我这里是已经注册登录的状态,如果没…

继承和多态(2)(多态部分)

提前讲的重要知识点 一个类在没有父类的情况下默认有一个父类为Object类。 而当在有父类情况下,如果你那父类没有父类,则其父类的父类默认为object类,所以即使一个类有父类,其内部还是有object类。 object类都是隐藏起来的&…

谈一谈BEV和Transformer在自动驾驶中的应用

谈一谈BEV和Transformer在自动驾驶中的应用 BEV和Transformer都这么火,这次就聊一聊。 结尾有资料连接 一 BEV有什么用 首先,鸟瞰图并不能带来新的功能,对规控也没有什么额外的好处。 从鸟瞰图这个名词就可以看出来,本来摄像头…

msvcp110.dll丢失修复办法

在计算机使用过程中,我们经常会遇到一些扩展名为.dll的文件,这些文件是动态链接库文件,用于提供程序运行时所需的函数和资源。其中,msvcp110.dll文件是一个非常重要的动态链接库文件,它属于Microsoft Visual C 2012 Re…

学习数据结构:算法的时间复杂度和空间复杂度

一、算法的复杂度 衡量一个算法的好坏,一般是从时间和空间两个维度来衡量的,即时间复杂度和空间复杂度。 时间复杂度主要衡量一个算法的运行快慢,而空间复杂度主要衡量一个算法运行所需要的额外空间。 算法的时间复杂度 算法中的基本操作的…

Earth Hour地球一小时

在刚刚过去的周六(2024-03-23)是个特殊的日子,你知道是什么日子吗? 对,是地球一小时 活动日。 地球一小时”是让全球关心自然、热心环保的人可以共同发声的平台。 当地时间2024年3月23日晚8点30分,“地球…

【保姆级讲解Redis基础命令】

🌈🌈🌈个人主页:程序员不想敲代码啊🌈🌈🌈 💫CSDN优质创作者,CSDN实力新星 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处&#xff0c…

YZ系列工具之YZ09: VBA_Excel之读心术

我给VBA下的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。我的教程一共九套一部VBA手册,教程分为初级、中级、高级三大部分。是对VBA的系统讲解,从简单的…

全自动挂机引流,客户主动上门的秘密武器!

流量一直是各个行业的难题,无论在实体店还是在线行业。只有不断获取大量的流量,才能更好的进行商业变现和扩展。那么,有没有一款能实现全自动挂机引流的软件呢?答案是肯定的。下面就由我以自身的经验来介绍一下这款全自动挂机引流…

(bug2总结)-mysql 字段为varchar,用int去查的时候可能会多返回数据

场景:表结构和数据如下图 查询语句如下 总结: mysql 字段为varchar,用int去查的时候可能会多返回数据。mysql版本为5.7.4