本文共894字,预计阅读需要4分钟

今日阅读:

今日软件:

Flarum

开源社区框架,美观是真的美观。唯一的问题就是基于PHP的——我最不想接触的语言之一。

Marker

将PDF,EPUB,MOBI等格式的电子书或扫描件高效率转化为Markdown文本的工具。

号称比nougat快十倍,效果也高出一头。昨天晚上事情太多没来得及配置环境测试,看作者提供的对比文件差异确实是非常之明显,nougat抽风错误识别太多了。

翻了下依赖,这个软件有点复杂。

先使用PyMuPDF统一转换PDF,然后再用OCR库(Tesseract等)进行第一步的文本识别。

之后会根据他训练的深度模型去识别页面布局,包括页眉页脚以及图表图说等等。下一步再用nougat转公式。

最后还有一个专门清洗页面用的T5ForTextClassification模型去整理非必要空格与字符。

今日代码:

没写什么具体的代码,就是把转发图片到TG的功能扩展到了reddit,因为我发现old.reddit的图片获取异常容易。

此外就是对车来了网页版的简单逆向,其实也没啥好逆向的,跟之前从小程序和APP截获的响应相同。只是请求中附带了src=webapp_XXX的参数。

我之前看车来了是有全国各个公交相关系统的授权版本的,我这个从东莞通的公众号里面抠出来,带的是webapp_dongguan参数。

响应速度貌似差异不大,因为原本就很快了。

今日见闻:

完全无趣一天。

今日废话:

之前总是找各种接口逃避晚上的计划健身,我现在调整了下顺序,到家即健身。

当犹豫一件事要规划在什么时候做才能完成的好,那就是立刻去做。

image1

飛べ!!