Sport Livestreams für Fußball Bundesliga, DFB-Pokal, Champions League, Europa League, NFL, NBA & Co.
Jetzt neu und kostenlos: Sport Live bei radio.de. Egal ob 1. oder 2. deutsche Fußball Bundesliga, DFB-Pokal, UEFA Fußball Europameisterschaft, UEFA Champions League, UEFA Europa League, Premier League, NFL, NBA oder die MLB - seid live dabei mit radio.de.
Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.
Du bist ebenfalls Data Scientist oder interessierst dich für Daten, M...
#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen?
Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderungen dabei auftreten.
Zusammenfassung:
Vergleich von OpenAI GPT-3.5 und drei Open-Source-LLMs (Llama 3.1, Mistral 7B, Leo-HessianAI)
Finetuning der Modelle auf lokalen Daten
Ergebnisse: Open-Source-LLMs sind bei größerem Trainingsdatensatz fast so gut wie GPT-3.5
XGBoost hinkt etwas hinterher, da Freitexte hier nicht einbezogen wurden
Wichtige Faktoren: Batchgröße, Trainingsschritte, Speicherbedarf und Nutzung von Lora-Finetuning
Beim Einsatz von Open Source ist mehr Handarbeit nötig, dafür bleibt alles on-premise
OpenAI punktet durch Einfachheit und hohe Qualität ohne großen Datenbedarf
Frameworks wie Huggingface, Mistral Codebase und Torchtune unterstützen das Finetuning
Ausblick: größere LLMs mit Multi-GPU, multimodale Daten und Unsicherheitsquantifizierung
***Links***
[Blog] Predictive LLMs: Übertreffen Open-Source-Modelle OpenAI bei Preisprognosen? https://www.inwt-statistics.de/blog/predictive-llms-uebertreffen-os-modelle-openai-bei-preisprognosen
[Podcast] #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://www.podbean.com/ew/pb-n6wem-165cb2c
[Blog] Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern
[Podcast] #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage https://www.podbean.com/ew/pb-vw736-15baac0
[Link] Llama-3.1-8B-Instruct auf Huggingface https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct
- [Link] Mistral-7B-Instruct-v0.3 auf Huggingface https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3
[Link] Mistral 7B Release Notes https://mistral.ai/news/announcing-mistral-7b/
[Link] leo-hessianai-7b auf Huggingface https://huggingface.co/LeoLM/leo-hessianai-7b
[Link] The Hessian Center for Artificial Intelligence https://hessian.ai/de/
[Docs] LangChain: How to return structured data from a model https://python.langchain.com/docs/how_to/structured_output/#the-with_structured_output-method
[Link] Wie hoch sind die Treibhausgasemissionen pro Person in Deutschland durchschnittlich? https://www.umweltbundesamt.de/service/uba-fragen/wie-hoch-sind-die-treibhausgasemissionen-pro-person#:~:text=Der%20deutsche%20Aussto%C3%9F%20an%20Treibhausgasen,sehr%20gro%C3%9Fe%20Unterschiede%20im%20Konsumniveau.
--------
40:31
#63: Data Mining: der pragmatische Weg zu Datenreife & Datenkultur mit Prof. Dr. Ana Moya
„Data Mining“ – klingt nach Staub und Schaufeln, ist aber der Schlüssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. Außerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zählen. Hilfreich für alle, die effektiv mit Daten arbeiten wollen.
Zusammenfassung
Data Mining: Definition und Bedeutung als pragmatischer Ansatz zur Mustererkennung
Herausforderungen: Niedrige Datenreife und der Druck, „fancy“ Methoden einzusetzen
Lösungsansätze: Bewährte Methoden wie Statistik, Visualisierungen und Anomaly Detection
Nachhaltigkeit: Optimierte Prozesse und ressourcenschonende Lösungen als Kernnutzen
Skills und Tools: Analytisches Denken, Statistik, Programmierkenntnisse, sowie Tools aus dem Bereich Business Intelligence und Programmiersprachen wie R & Python
Fehler vermeiden: Datenqualität, Vermeidung von Confirmation Bias und sinnvolle Nutzung von Dashboards
***Links***
Prof. Dr. Ana Moya auf LinkedIn: https://www.linkedin.com/in/doc-moya/
International School of Management (ISM) https://en.ism.de/
INFOMOTION GmbH https://www.infomotion.de/
Power BI https://www.microsoft.com/de-de/power-platform/products/power-bi?market=de
Tableau https://www.tableau.com/
Python https://www.python.org/
R https://www.r-project.org/
Fragen, Feedback und Themenwünsche gern an [email protected]
--------
42:39
#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft
Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus!
Zusammenfassung
Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und Datenströme
Einsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werden
Unser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über Python
Features: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und Ausfallsicherheit
Ausblick: Veröffentlichung auf CRAN, Admin-Client für Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links)
Links
Apache Kafka https://kafka.apache.org/
Confluent https://www.confluent.io/
Rcpp (CRAN) https://cran.r-project.org/web/packages/Rcpp/index.html
reticulate (CRAN) https://cran.r-project.org/web/packages/reticulate/index.html
R Paket kafka auf GitHub https://github.com/INWTlab/r-kafka
Blogartikel zum R Paket kafka https://www.inwt-statistics.de/blog/r-paket-kafka
nats https://nats.io/
Azure EventHub https://azure.microsoft.com/de-de/products/event-hubs
Redpanda https://www.redpanda.com/
Fragen, Feedback und Themenwünsche gern an [email protected]
--------
21:02
#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte
Zusammenfassend unsere Must-Haves:
Datenbank / DWH
Lösung zur Datenvisualisierung
Möglichkeit, unkompliziert zu entwickeln (lokal oder im Web)
Versionskontrolle / CI/CD
Deployment-Lösung
Trennung von Entwicklungs- und Produktivumgebung
Monitoring für Modell & Ressourcen
Verwandte Podcast-Episoden
Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte
Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh
Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists?
Folge #21: Machine Learning Operations (MLOps)
Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack
Folge #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida
Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage
Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?
Technologien & Tools
Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash
Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm
Versionskontrolle: GitHub, GitLab, Azure DevOps
CI/CD: GitHub Actions, GitLab CI, Jenkins
Deployment: Kubernetes, Docker, Helm, ArgoCD
Experiment-Tracking: MLFlow, DVC, Tensorboard
Monitoring: Prometheus, Grafana, AWS Cloudwatch
--------
42:04
#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI
Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft!
***Links***
#4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d
https://de.wikipedia.org/wiki/Hype-Zyklus
Fragen, Feedback und Themenwünsche gern an [email protected]
--------
41:44
Weitere Technologie PodcastsWeitere Technologie Podcasts
Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.
Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.
Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.
Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.
Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.