今日阅读:
- Serv00搭建各种服务
小结:毛了免费网络空间之后最怕的是吃灰——虽然大部分结局都是这样,但是部署几个诸如代理或者自动任务也算不浪费空间,再不济也可以装个探针当赛博花盆。这博客里面介绍了几十个在 Ser00 的免费 3G 空间里可以正常运行的服务,包括每一步的部署命令,非常详细。 - gpt4o的tokenizer被中文垃圾语料污染严重,充斥着各种小广告
小结:在群里和论坛看到这个新闻,原本以为是之前 GPT-3 的语料又被挖出来了,一看原来是新鲜 commit 上去的分词语料。拉下来一看全是赌博和色情网站广告,Openai 果然还是简单的用谷歌爬虫抓了一下,这不直接全抓的是内容农场。
今日软件:
- Uptime Kuma
小结:轻量级的服务监控运维工具。一开始我以为是那种面向用户观看的站点服务检测,后面发现这个还是主要给运维看的,还支持接入几十种通知服务,不过我目前没有什么特别需要监控的(VPS 上也没地方了)。
今日代码:
逆向了一下日本 yahoo 财经的股票评论区接口。
import requests
url = "https://mb.yahooapis.jp/V1/comments/fin"
params = {
'visible_muted_comments': 0,
'results': 500, # 最大是 500 但是有一定概率返回 404
'mid': 397336, # 开始抓取的楼层 不加这个参数默认抓取最新
'stock_code': 5253,
'stocks_link_device': 1
}
headers = {
'User-Agent': <Yahoo AppID 需要从设备中提取>
}
response = requests.get(url, headers=headers, params=params)
print(response.text)
非常简单易懂的接口,爬完之后把一天的股票评论直接扔进 Gemini 1.5 Pro 模型里面分析,还是能得到一丁点的信息。
今日见闻:
OpenAI 推出了新的大语言模型 GPT-4o,并宣布推出 Mac 和 Windows 版的 ChatGpt应用。
今日废话:
为什么晚上时间老是不够用?我都在做些什么呢?
好想给自己身上加一个 7 * 24 的行为采集器,然后分析一下哪些地方还可以优化。