Twitter zaradi prevzema Elona Muska izgublja uporabnike in prešteva kritike strokovnjakov, zaposlenih in tviterašev. Kakšno je razpoloženje na slovenskem delu Twitterja, koliko uporabnikov še tvita v slovenščini, o čem govorijo in kako natančno lahko na podlagi Twitterja napovemo volilne rezultate?
Omrežju Mastodon, ki velja za alternativo Twitterju, se je do sredine novembra pridružilo milijon uporabnikov, število narašča, povprečje dnevnih uporabnikov se povečuje.
Marko Plahuta je programer, ki se ukvarja s strojnim učenjem na področju obdelave jezika. Z raziskovanjem in vizualizacijo se ukvarja v prostem času.
Zapiski:
- About the author - Virostatiq
- CENTER ZA JEZIKOVNE VIRE IN TEHNOLOGIJE
- Filmski pojmovnik – Slovenska kinoteka
- Kviz!
Kaj Marko uporablja:
- Elastic Search za shranjevanje, iskanje in preproste agregacije
- Twitterjev API za zajemanje podatkov s Twitterja
- Naučene jezikovne modele, dostopne na HuggingFace, kot osnovo za klasifikatorje in generativne modele
- To zgoraj skupaj s knjižnicami TensorFlow/Keras in PyTorch
- spaCy, ki je nedavno izšel za slovenščino
- Classla, ki je podoben spaCyju, a temelji na Stanfordovi tehnologiji
- Starejše jezikovne tehnologije, zbrane v knjižnicah Gensim in Scikit-Learn
- UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction — umap 0.5 documentation
- GitHub - facebookresearch/faiss: A library for efficient similarity search and clustering of dense vectors.
- The hdbscan Clustering Library — hdbscan 0.8.1 documentation
- GitHub - eliorc/node2vec: Implementation of the node2vec algorithm.
Zanimivosti iz tehnološkega sveta pošiljava tudi v elektronske nabiralnike. Naročilnica na Odbito pismo je tukaj. Razpravi o odbitih temah se lahko pridružite na Twitterju. Dosegljiva sva tudi na naslovu: odbita@rtvslo.si.
Podkast Odbita do bita je brezplačno na voljo v vseh aplikacijah za podkaste. Naročite se in podkast ocenite.