本文共510字,预计阅读需要1.5分钟
今日阅读:
- 近期谷歌搜索结果中时常出现「搜索留痕」污染 小结:原来这种黑帽SEO是有确切名字的,但是没有办法找到更多相关操作实例,因为搜索结果已经被“污染”了。
- 相信我,这是你能找到最全最靠谱的全网电子书下载教程! 小结:标题非常的广告(实际结尾也是广告),但是文章内还是有东西的,尤其是讲了下读秀下架库相关的黑产运作。
今日软件:
专为轻之国度和轻小说文库等开发的网页转epub工具,原理不难但是有人实现并持续维护难能可贵。
说起来不知道为什么轻之国度这类翻译发布平台,还是喜欢用论坛帖子的形式而不是提供文件下载,猜测历史习惯。
multcloud的使用后续
之前提到过的网盘转存服务,我今天才有机会来实际测试一下。+
直链提取效果不错而且可以绕过mega的流量限制,但是转存功能可以说是一团糟。
速度慢,成功率低。以及每次同步转存都有文件数量限制,基本是不能用的状态。
今日代码:
最近github上很火的OCR项目surya,快速撸了一个脚本来检测效果,速度很快稳定性也不错。
不过现在的功能还只是逐行标注文字区域,文字提取和表格提取还没做。
from PIL import Image, ImageDraw
from surya.detection import batch_inference
from surya.model.segformer import load_model, load_processor
import matplotlib.pyplot as plt
file_path = input("输入图片路径:")
image = Image.open(file_path)
model, processor = load_model(), load_processor()
predictions = batch_inference([image], model, processor)
draw = ImageDraw.Draw(image)
data = predictions[0]
for bbox in data['bboxes']:
draw.rectangle(bbox, outline='red', width=2)
for line in data['vertical_lines']:
bbox = line['bbox']
draw.line([bbox[0], bbox[1], bbox[2], bbox[3]], fill='blue', width=2)
for line in data['horizontal_lines']:
bbox = line['bbox']
draw.line([bbox[0], bbox[1], bbox[2], bbox[3]], fill='green', width=2)
plt.imshow(image)
plt.axis('off')
plt.show()
今日见闻:
无。
今日废话:
减少摄入Day1。