本文共510字,预计阅读需要1.5分钟

今日阅读:

今日软件:

(轻)小说 epub 生成器

专为轻之国度和轻小说文库等开发的网页转epub工具,原理不难但是有人实现并持续维护难能可贵。

说起来不知道为什么轻之国度这类翻译发布平台,还是喜欢用论坛帖子的形式而不是提供文件下载,猜测历史习惯。

multcloud的使用后续

之前提到过的网盘转存服务,我今天才有机会来实际测试一下。+

直链提取效果不错而且可以绕过mega的流量限制,但是转存功能可以说是一团糟。

image1

速度慢,成功率低。以及每次同步转存都有文件数量限制,基本是不能用的状态。

今日代码:

最近github上很火的OCR项目surya,快速撸了一个脚本来检测效果,速度很快稳定性也不错。

不过现在的功能还只是逐行标注文字区域,文字提取和表格提取还没做。

Ocr_surya.py
from PIL import Image, ImageDraw
from surya.detection import batch_inference
from surya.model.segformer import load_model, load_processor
import matplotlib.pyplot as plt
 
file_path = input("输入图片路径:")
image = Image.open(file_path)
model, processor = load_model(), load_processor()
predictions = batch_inference([image], model, processor)
draw = ImageDraw.Draw(image)
data = predictions[0]
for bbox in data['bboxes']:
    draw.rectangle(bbox, outline='red', width=2)
for line in data['vertical_lines']:
    bbox = line['bbox']
    draw.line([bbox[0], bbox[1], bbox[2], bbox[3]], fill='blue', width=2)
for line in data['horizontal_lines']:
    bbox = line['bbox']
    draw.line([bbox[0], bbox[1], bbox[2], bbox[3]], fill='green', width=2)
plt.imshow(image)
plt.axis('off')
plt.show()

image2

今日见闻:

无。

今日废话:

减少摄入Day1。