本文共894字,预计阅读需要4分钟
今日阅读:
- 爆破专栏丨Spring Security系列教程之实现CAS单点登录上篇-概述 小记:对于昨天模拟登陆部分的扩展和补充,但是这种东西说实话不实操很难懂的。
- python实战-实现内网CAS统一认证登录 小记:对于上面说的那个CAS单点登录,使用Python逆向的简明步骤。
- 服务器中1U、2U、4U指什么? - 开源Linux的文章 - 知乎 小记:一言以蔽之,U是unit即基准单位的意思。至于为什么会看这个,是因为我看到了一个很不错的ARM架构云手机服务器实现,1U厚度的。
今日软件:
开源社区框架,美观是真的美观。唯一的问题就是基于PHP的——我最不想接触的语言之一。
将PDF,EPUB,MOBI等格式的电子书或扫描件高效率转化为Markdown文本的工具。
号称比nougat快十倍,效果也高出一头。昨天晚上事情太多没来得及配置环境测试,看作者提供的对比文件差异确实是非常之明显,nougat抽风错误识别太多了。
翻了下依赖,这个软件有点复杂。
先使用PyMuPDF统一转换PDF,然后再用OCR库(Tesseract等)进行第一步的文本识别。
之后会根据他训练的深度模型去识别页面布局,包括页眉页脚以及图表图说等等。下一步再用nougat转公式。
最后还有一个专门清洗页面用的T5ForTextClassification模型去整理非必要空格与字符。
今日代码:
没写什么具体的代码,就是把转发图片到TG的功能扩展到了reddit,因为我发现old.reddit的图片获取异常容易。
此外就是对车来了网页版的简单逆向,其实也没啥好逆向的,跟之前从小程序和APP截获的响应相同。只是请求中附带了src=webapp_XXX的参数。
我之前看车来了是有全国各个公交相关系统的授权版本的,我这个从东莞通的公众号里面抠出来,带的是webapp_dongguan参数。
响应速度貌似差异不大,因为原本就很快了。
今日见闻:
完全无趣一天。
今日废话:
之前总是找各种接口逃避晚上的计划健身,我现在调整了下顺序,到家即健身。
当犹豫一件事要规划在什么时候做才能完成的好,那就是立刻去做。
飛べ!!