アップル公式のトランスフォーマー実装
GitHub - apple/ml-ane-transformers: Reference implementation of the Transformer architecture optimized for Apple Neural Engine (ANE) https://github.com/apple/ml-ane-transformers
Original Link
Colabのインスタンス再起動したら、WhiperのLargeモデルでもメモリ足りた。あと一回のバッチジョブの時間(30分なのかな?)の範囲で1時間の通録(を話者分離して細切れにしたものを個別にwhisperにかける)というのはできた。
まあもうちょっとちゃんとやるにはColabProを契約するんだろうな
あと音声認識結果をそのままGPT-4に要約してもらうところまで自動化できたら良さそう。Web版ChatGPTにコピペしてやろうとしたら以外と一回の文字数制限が低くて厳しかった タイムスタンプとかで文字数使っちゃってるからかも。
Original Link
話者分離&音声認識、whisperのmediumモデルなら無料colabで動作できた。超簡単。でもこれプロダクションでちゃんと動く環境作って運用するの結構めんどそう。。
whisperのlargeモデルだとColab Proじゃないとメモリたり無さそう。(メモリ不足でクラッシュしちゃった
pyannote.audioで簡単話者分離〜whisperを添えて〜 - Qiita
https://qiita.com/sayo0127/items/e22fdc229d2dfd879f75
Original Link
ミスリーディングチャットでもトランスフォーマー話 なんとなくわかった気になる
#111: Formal Algorithms for Transformers – Misreading Chat https://misreading.chat/2023/04/04/111-formal-algorithms-for-transformers/
Original Link
インクリメントピーひどいな
トラップストリート - Wikipedia https://ja.wikipedia.org/wiki/%E3%83%88%E3%83%A9%E3%83%83%E3%83%97%E3%82%B9%E3%83%88%E3%83%AA%E3%83%BC%E3%83%88
Original Link
鳥識別アプリ
Merlin Bird ID – Free, instant bird identification help and guide for thousands of birds – Identify the birds you see https://merlin.allaboutbirds.org/
Original Link
リア周りがめちゃかっこいい 全高1550にしてくれたらもうこれでいいです
【試乗インプレ】トヨタ、新型「クラウンスポーツ PHEV/HEV プロトタイプ」 ショートホイールベースの異次元コーナリング / - Car Watch https://car.watch.impress.co.jp/docs/news/impression/1497709.html
Original Link
ちなみにこのモジュール使えば再生音をPython アプリで拾えるようになる(まあPythonに限らず世の中的にはいろいろあるとは思うけど) これつかってZoomとかGoogleMeetとかの出力音声を拾ってその場で話者分離と音声認識ができればよいのだがまあ先は遠い ZoomAPIで通録からやるなら割とすぐできそう。面倒そうだけど
SoundCard · PyPI
https://pypi.org/project/SoundCard/
Original Link
話者単位に一旦WAVを分割してから音声認識させて最後に統合するみたいな処理が必要ぽい。まあこのへんは自分ではやらなくていいかな colabだと普通にできるようだ(M1Macで軽く試したけどpython系のインストールでいろいろハマりそうだった)
WhisperとPyannoteを用いた話者分離と音声認識 | Hakky Handbook
https://book.st-hakky.com/docs/whisper-pyannote-diarization/
Original Link
whisper.cppのapple silicon版でlargeモデルのファイルからの認識ならかなり高精度。リアルタイムはm1MacBookAirだとしんどいですね。モデルを小さくすればできそうだけど精度が下がる
あと話者特定はこんなのを使うらしいです。これもGPU前提なので、やっぱこのへんの処理はColabでやるのが本筋でしょうね。。
音声認識Whisperと話者識別Pyannote.audioで議事録自動作成 | 鷹の目週末プログラマー
https://happy-shibusawake.com/whisper-pyannote-audio/1204/
Original Link
32k tokens、apiからは使えないという話も聞いたが使えるようだ。。一回300円くらいかかるみたいだけど
会社でみんながこれやったらえらいことになりそう
What is the difference between the GPT-4 models? | OpenAI Help Center https://help.openai.com/en/articles/7127966-what-is-the-difference-between-the-gpt-4-models
Original Link
もともとMLやってた側の人たちがLLMについて語る、というなかなか面白い内容 あと社内タスクフォースの事例話とかもあり、参考になりそう
68. まだまだ続くよ白金鉱業FM!ChatGPTをはじめとした「基盤モデル・大規模言語モデル 社内タスクフォース」の話! | 白金鉱業.FM https://shirokane-kougyou.github.io/episode/68
Original Link
BeeX社のインフラ担当がec2操作ミスが多いとか家の人がぼやいていたので(GWのシステム移行中)それは多分関連会社の新卒2年目にSAAだけ取らせて現場に投入されてる外注さんだよという話をした
あと顧客サポート用に自社開発のチャットアプリみたいなのを提供してるようだがかなりショボい
Original Link