In diesem Test betrachten wir die mächtige, aber winzige NVIDIA L4-GPU auf mehreren Servern mit realen KI-Benchmarking-Erkenntnissen.
In der nachlassenden Innovationsflut der heutigen KI-Welt ist es von entscheidender Bedeutung, die Fähigkeiten verschiedener Hardwareplattformen zu messen und zu verstehen. Nicht jede KI erfordert riesige Trainings-GPU-Farmen. Es gibt ein wichtiges Segment der Inferenz-KI, das oft weniger GPU-Leistung erfordert, insbesondere am Rand. In diesem Test werfen wir einen Blick auf mehrere NVIDIA L4-GPUs auf drei verschiedenen Dell-Servern und eine Vielzahl von Workloads, einschließlich MLperf, um zu sehen, wie sich der L4 schlägt.
NVIDIA L4-GPU
Im Kern liefert der L4 beeindruckende 30.3 TeraFLOPs in FP32-Leistung, ideal für hochpräzise Rechenaufgaben. Seine Leistungsfähigkeit erstreckt sich auf Berechnungen mit gemischter Präzision mit TF32-, FP16- und BFLOAT16-Tensorkernen, die für die Deep-Learning-Effizienz von entscheidender Bedeutung sind. Das L4-Datenblatt gibt eine Leistung zwischen 60 und 121 TeraFLOPs an.
Bei Aufgaben mit geringer Präzision glänzt der L4 mit 242.5 TeraFLOPs in FP8- und INT8-Tensorkernen und verbessert so die Inferenz neuronaler Netzwerke. Sein 24 GB GDDR6-Speicher, ergänzt durch eine Bandbreite von 300 GB/s, ermöglicht es ihm, große Datensätze und komplexe Modelle zu verarbeiten. Am bemerkenswertesten ist hier die Energieeffizienz des L4, mit einer TDP von 72 W eignet er sich für verschiedene Computerumgebungen. Diese Kombination aus hoher Leistung, Speichereffizienz und geringem Stromverbrauch macht den NVIDIA L4 zu einer überzeugenden Wahl für Edge-Computing-Herausforderungen.
NVIDIA L4-Spezifikationen | |
---|---|
FP 32 | 30.3 TeraFLOPs |
TF32 Tensorkern | 60 TeraFLOPs |
FP16 Tensorkern | 121 TeraFLOPs |
BFLOAT16 Tensorkern | 121 TeraFLOPs |
FP8 Tensorkern | 242.5 TeraFLOPs |
INT8 Tensorkern | 242.5 TOPs |
GPU-Speicher | 24GB GDDR6 |
GPU-Speicherbandbreite | 300GB / s |
Maximale thermische Designleistung (TDP) | 72W |
Formfaktor | Low-Profile-PCIe mit 1 Steckplatz |
Interconnect | PCIe-Gen4 x16 |
Spezifikationsdiagramm | L4 |
Da der L4-Preis bei etwa 2500 US-Dollar liegt, der A2 etwa halb so teuer ist und der ältere (aber immer noch recht leistungsfähige) T4 gebraucht für unter 1000 US-Dollar erhältlich ist, stellt sich natürlich die Frage, was der Unterschied zwischen diesen drei Inferenz-GPUs ist.
NVIDIA L4-, A2- und T4-Spezifikationen | NVIDIA L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
FP 32 | 30.3 TeraFLOPs | 4.5 TeraFLOPs | 8.1 TeraFLOPs |
TF32 Tensorkern | 60 TeraFLOPs | 9 TeraFLOPs | N / A |
FP16 Tensorkern | 121 TeraFLOPs | 18 TeraFLOPs | N / A |
BFLOAT16 Tensorkern | 121 TeraFLOPs | 18 TeraFLOPs | N / A |
FP8 Tensorkern | 242.5 TeraFLOPs | N / A | N / A |
INT8 Tensorkern | 242.5 TOPs | 36 TOPS | 130 TOPS |
GPU-Speicher | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
GPU-Speicherbandbreite | 300GB / s | 200GB / s | 320+ GB/s |
Maximale thermische Designleistung (TDP) | 72W | 40-60W | 70W |
Formfaktor | Low-Profile-PCIe mit 1 Steckplatz | ||
Interconnect | PCIe-Gen4 x16 | PCIe-Gen4 x8 | PCIe-Gen3 x16 |
Spezifikationsdiagramm | L4 | A2 | T4 |
Wenn man sich diese drei Karten ansieht, muss man verstehen, dass es sich dabei nicht gerade um einen generationsübergreifenden Eins-zu-eins-Ersatz handelt, was erklärt, warum die T4 auch viele Jahre später noch immer eine beliebte Wahl für einige Anwendungsfälle ist. Der A2 kam als Ersatz für den T4 als stromsparende und kompatiblere (x8 vs. x16 mechanische) Option heraus. Technisch gesehen ist der L4 ein Ersatz für den T4, wobei der A2 eine Zwischenstation darstellt, die möglicherweise irgendwann in der Zukunft aktualisiert wird, vielleicht aber auch nicht.
MLPerf-Inferenz 3.1 Leistung
MLPerf ist ein Konsortium von KI-Führungskräften aus Wissenschaft, Forschung und Industrie, das gegründet wurde, um faire und relevante KI-Hardware- und Software-Benchmarks bereitzustellen. Diese Benchmarks dienen dazu, die Leistung von Hardware, Software und Diensten für maschinelles Lernen bei verschiedenen Aufgaben und Szenarien zu messen.
Unsere Tests konzentrieren sich auf zwei spezifische MLPerf-Benchmarks: Resnet50 und BERT.
- Resnet50: Dies ist ein Faltungs-Neuronales Netzwerk, das hauptsächlich zur Bildklassifizierung verwendet wird. Dies ist ein guter Indikator dafür, wie gut ein System Deep-Learning-Aufgaben im Zusammenhang mit der Bildverarbeitung bewältigen kann.
- BERT (Bidirektionale Encoderdarstellungen von Transformers): Dieser Benchmark konzentriert sich auf Aufgaben der Verarbeitung natürlicher Sprache und bietet Einblicke in die Leistung eines Systems beim Verstehen und Verarbeiten menschlicher Sprache.
Beide Tests sind von entscheidender Bedeutung für die Bewertung der Fähigkeiten der KI-Hardware in realen Szenarien mit Bild- und Sprachverarbeitung.
Die Bewertung des NVIDIA L4 mit diesen Benchmarks ist entscheidend, um die Fähigkeiten der L4-GPU bei bestimmten KI-Aufgaben zu verstehen. Es bietet auch Einblicke in den Einfluss verschiedener Konfigurationen (Einzel-, Dual- und Quad-Setups) auf die Leistung. Diese Informationen sind für Fachleute und Organisationen, die ihre KI-Infrastruktur optimieren möchten, von entscheidender Bedeutung.
Die Modelle laufen in zwei Hauptmodi: Server und Offline.
- Offline-Modus: Dieser Modus misst die Leistung eines Systems, wenn alle Daten gleichzeitig zur Verarbeitung verfügbar sind. Es ähnelt der Stapelverarbeitung, bei der das System einen großen Datensatz in einem einzigen Stapel verarbeitet. Der Offline-Modus ist von entscheidender Bedeutung für Szenarien, in denen die Latenz nicht im Vordergrund steht, Durchsatz und Effizienz jedoch schon.
- Servermodus: Im Gegensatz dazu bewertet der Servermodus die Leistung des Systems in einem Szenario, das eine reale Serverumgebung nachahmt, in der Anfragen einzeln eingehen. Dieser Modus ist latenzempfindlich und misst, wie schnell das System auf jede Anfrage reagieren kann. Dies ist für Echtzeitanwendungen wie Webserver oder interaktive Anwendungen unerlässlich, bei denen eine sofortige Reaktion erforderlich ist.
1 x NVIDIA L4 – Dell PowerEdge XR7620
Im Rahmen unserer jüngsten Überprüfung des Dell PowerEdge XR7620, ausgestattet mit einer einzigen NVIDIA L4, haben wir es an den Rand gebracht, um mehrere Aufgaben auszuführen, einschließlich MLPerf.
Unsere Testsystemkonfiguration umfasste die folgenden Komponenten:
- 2 x Xeon Gold 6426Y – 16-Kern 2.5 GHz
- 1 x NVIDIA L4
- 8 x 16 GB DDR5
- 480 GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA-Treiber 535
Dell PowerEdge XR7620 1x NVIDIA L4 | Score |
---|---|
Resnet50 – Server | 12,204.40 |
Resnet50 – Offline | 13,010.20 |
BERT K99 – Server | 898.945 |
BERT K99 – Offline | 973.435 |
Die Leistung in Server- und Offline-Szenarien für Resnet50 und BERT K99 ist nahezu identisch, was darauf hindeutet, dass der L4 über verschiedene Servermodelle hinweg eine konsistente Leistung aufrechterhält.
1, 2 und 4 NVIDIA L4 – Dell PowerEdge T560
Die Konfiguration unseres Testgeräts umfasste die folgenden Komponenten:
- 2 x Intel Xeon Gold 6448Y (jeweils 32 Kerne/64 Threads, 225 Watt TDP, 2.1–4.1 GHz)
- 8 x 1.6 TB Solidigm P5520 SSDs mit PERC 12 RAID-Karte
- 1–4x NVIDIA L4-GPUs
- 8 x 64 GB RDIMMs
- Ubuntu Server 22.04
- NVIDIA-Treiber 535
Dell PowerEdge T560 1x NVIDIA L4 | Score |
---|---|
Resnet50 – Server | 12,204.40 |
Resnet50 – Offline | 12,872.10 |
Bert K99 – Server | 898.945 |
Bert K99 – Offline | 945.146 |
Bei unseren Tests mit zwei L4s im Dell T560 haben wir diese nahezu lineare Leistungsskalierung sowohl für den Resnet50- als auch für den BERT K99-Benchmark beobachtet. Diese Skalierung ist ein Beweis für die Effizienz der L4-GPUs und ihre Fähigkeit, ohne nennenswerte Verluste aufgrund von Overhead oder Ineffizienz im Tandem zu arbeiten.
Dell PowerEdge T560 2x NVIDIA L4 | Score |
---|---|
Resnet50 – Server | 24,407.50 |
Resnet50 – Offline | 25,463.20 |
BERT K99 – Server | 1,801.28 |
BERT K99 – Offline | 1,904.10 |
Die konsistente lineare Skalierung, die wir mit zwei NVIDIA L4-GPUs beobachtet haben, lässt sich eindrucksvoll auf Konfigurationen mit vier L4-Einheiten übertragen. Diese Skalierung ist besonders bemerkenswert, da die Aufrechterhaltung linearer Leistungssteigerungen aufgrund der Komplexität der Parallelverarbeitung und des Ressourcenmanagements mit jeder hinzugefügten GPU immer schwieriger wird.
Dell PowerEdge T560 4x NVIDIA L4 | Score |
---|---|
Resnet50 – Server | 48,818.30 |
Resnet50 – Offline | 51,381.70 |
BERT K99 – Server | 3,604.96 |
BERT K99 – Offline | 3,821.46 |
Diese Ergebnisse dienen nur zur Veranschaulichung und sind keine Wettbewerbs- oder offiziellen MLPerf-Ergebnisse. Für eine vollständige offizielle Ergebnisliste wenden Sie sich bitte an uns Besuchen Sie die MLPerf-Ergebnisseite.
Neben der Validierung der linearen Skalierbarkeit der NVIDIA L4-GPUs geben unsere Tests im Labor Aufschluss über die praktischen Auswirkungen des Einsatzes dieser Einheiten in verschiedenen Betriebsszenarien. Beispielsweise zeigt die konsistente Leistung zwischen Server- und Offline-Modus über alle Konfigurationen hinweg mit den L4-GPUs deren Zuverlässigkeit und Vielseitigkeit.
Dieser Aspekt ist insbesondere für Unternehmen und Forschungseinrichtungen relevant, in denen die betrieblichen Kontexte stark variieren. Darüber hinaus liefern unsere Beobachtungen zu den minimalen Auswirkungen von Verbindungsengpässen und der Effizienz der GPU-Synchronisierung in Multi-GPU-Setups wertvolle Erkenntnisse für diejenigen, die ihre KI-Infrastruktur skalieren möchten. Diese Erkenntnisse gehen über bloße Benchmark-Zahlen hinaus und bieten ein tieferes Verständnis dafür, wie solche Hardware in realen Szenarien optimal genutzt werden kann, und ermöglichen so bessere Architekturentscheidungen und Investitionsstrategien in die KI- und HPC-Infrastruktur.
NVIDIA L4 – Anwendungsleistung
Wir haben die Leistung des neuen NVIDIA L4 mit der Leistung der Vorgängermodelle NVIDIA A2 und NVIDIA T4 verglichen. Um diese Leistungssteigerung gegenüber den Vorgängermodellen zu demonstrieren, haben wir alle drei Modelle in einem Server in unserem Labor mit Windows Server 2022 und den neuesten NVIDIA-Treibern bereitgestellt und dabei unsere gesamte GPU-Testsuite genutzt.
Diese Karten wurden auf einem getestet Dell Poweredge R760 mit folgender Konfiguration:
- 2 x Intel Xeon Gold 6430 (32 Kerne, 2.1 GHz)
- Windows Server 2022
- NVIDIA-Treiber 538.15
- ECC auf allen Karten für 1x-Sampling deaktiviert
Zu Beginn der Leistungstests zwischen dieser Gruppe von drei Enterprise-GPUs ist es wichtig, die einzigartigen Leistungsunterschiede zwischen den früheren A2- und T4-Modellen zu beachten. Als der A2 auf den Markt kam, bot er einige bemerkenswerte Verbesserungen, wie z. B. einen geringeren Stromverbrauch und den Betrieb mit einem kleineren PCIe Gen4 x8-Steckplatz anstelle des größeren PCIe Gen3 x16-Steckplatzes, den der ältere T4 benötigte. Auf Anhieb konnte es in mehr Systeme integriert werden, insbesondere bei geringerem Platzbedarf.
Mixer OptiX 4.0
Blender OptiX ist eine Open-Source-3D-Modellierungsanwendung. Dieser Test kann sowohl für die CPU als auch für die GPU durchgeführt werden, aber wie die meisten anderen Tests hier haben wir nur die GPU durchgeführt. Dieser Benchmark wurde mit dem CLI-Dienstprogramm Blender Benchmark ausgeführt. Die Punktzahl beträgt Samples pro Minute, wobei je höher desto besser ist.
Mixer 4.0 (Höher ist besser) |
NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
GPU Blender CLI – Monster | 2,207.765 | 458.692 | 850.076 |
GPU Blender CLI – Junkshop | 1,127.829 | 292.553 | 517.243 |
GPU Blender CLI – Klassenzimmer | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW-Geschwindigkeitstest
Wir testen CPUs und GPUs mit dem RAW-Geschwindigkeitstest von Blackmagic, der die Geschwindigkeit der Videowiedergabe testet. Dabei handelt es sich eher um einen Hybridtest, der die CPU- und GPU-Leistung für die RAW-Dekodierung in der Praxis einbezieht. Diese werden als separate Ergebnisse angezeigt, aber wir konzentrieren uns hier nur auf die GPUs, sodass die CPU-Ergebnisse weggelassen werden.
Blackmagic RAW-Geschwindigkeitstest (Höher ist besser) |
NVIDIA L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024-GPU
Maxons Cinebench 2024 ist ein CPU- und GPU-Rendering-Benchmark, der alle CPU-Kerne und Threads nutzt. Da wir uns wiederum auf GPU-Ergebnisse konzentrieren, haben wir die CPU-Teile des Tests nicht ausgeführt. Höhere Werte sind besser.
Cinebench 2024 (Höher ist besser) |
NVIDIA L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 ist eine Version des leichtgewichtigen Benchmarking-Dienstprogramms zur Berechnung von π (pi) auf Milliarden von Dezimalstellen mithilfe der Hardwarebeschleunigung durch GPUs und CPUs. Es nutzt die Rechenleistung von OpenCL und CUDA, die sowohl zentrale als auch grafische Verarbeitungseinheiten umfasst. Wir haben CUDA nur auf allen 3 GPUs ausgeführt und die Zahlen hier sind die Berechnungszeit ohne hinzugefügte Reduktionszeit. Weniger ist besser.
GPU-PI-Berechnungszeit in Sekunden (Weniger ist besser) |
NVIDIA L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
GPUPI v3.3 – 1B | 3.732er-Jahre | 19.799er-Jahre | 7.504er-Jahre |
GPUPI v3.3 – 32B | 244.380er-Jahre | 1,210.801er-Jahre | 486.231er-Jahre |
Während sich die vorherigen Ergebnisse nur auf eine einzelne Iteration jeder Karte konzentrierten, hatten wir auch die Gelegenheit, einen Blick auf eine 5x NVIDIA L4-Bereitstellung innerhalb der Karte zu werfen Dell PowerEdge T560.
GPU-PI-Berechnungszeit in Sekunden (Weniger ist besser) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) mit 5x NVIDIA L4 |
---|---|
GPUPI v3.3 – 1B | 0 Sek. 850 ms |
GPUPI v3.3 – 32B | 50 Sek. 361 ms |
Oktanbank
OctaneBench ist ein Benchmarking-Dienstprogramm für OctaneRender, einen weiteren 3D-Renderer mit RTX-Unterstützung ähnlich wie V-Ray.
Oktanzahl (höher ist besser) | ||||
Szene | Kernel | NVIDIA L4 | Nvidia A2 | NVIDIA T4 |
Interieur | Infokanäle | 15.59 | 4.49 | 6.39 |
Direkte Beleuchtung | 50.85 | 14.32 | 21.76 | |
Pfadverfolgung | 64.02 | 18.46 | 25.76 | |
Die Idee | Infokanäle | 9.30 | 2.77 | 3.93 |
Direkte Beleuchtung | 39.34 | 11.53 | 16.79 | |
Pfadverfolgung | 48.24 | 14.21 | 20.32 | |
ATV | Infokanäle | 24.38 | 6.83 | 9.50 |
Direkte Beleuchtung | 54.86 | 16.05 | 21.98 | |
Pfadverfolgung | 68.98 | 20.06 | 27.50 | |
Verpackung | Infokanäle | 12.89 | 3.88 | 5.42 |
Direkte Beleuchtung | 48.80 | 14.59 | 21.36 | |
Pfadverfolgung | 54.56 | 16.51 | 23.85 | |
Gesamtwertung | 491.83 | 143.71 | 204.56 |
Geekbench 6-GPU
Geekbench 6 ist ein plattformübergreifender Benchmark, der die Gesamtsystemleistung misst. Es gibt Testmöglichkeiten sowohl für das CPU- als auch für das GPU-Benchmarking. Höhere Werte sind besser. Auch hier haben wir uns nur die GPU-Ergebnisse angesehen.
Vergleiche zu jedem gewünschten System finden Sie im Geekbench Browser.
Geekbench 6.1.0 (Höher ist besser) |
NVIDIA L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
Geekbench-GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark ist ein plattformübergreifendes OpenCL-Benchmarking-Tool von Betreibern der Open-Source-3D-Rendering-Engine LuxRender. Dieses Tool untersucht die GPU-Leistung bei der 3D-Modellierung, Beleuchtung und Videoarbeit. Für diesen Test haben wir die neueste Version, v4alpha0, verwendet. Bei LuxMark gilt: Höher ist besser, wenn es um die Punktzahl geht.
Luxmark v4.0alpha0 OpenCL-GPUs (Höher ist besser) |
NVIDIA L4 | Nvidia A2 | NVIDIA T4 |
---|---|---|---|
Hallenbank | 14,328 | 3,759 | 5,893 |
Essensbank | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Wir beziehen auch kompiliertes GROMACS, eine Software für Molekulardynamik, speziell für CUDA. Diese maßgeschneiderte Zusammenstellung sollte die parallelen Verarbeitungsfähigkeiten der 5 NVIDIA L4-GPUs nutzen, die für die Beschleunigung von Rechensimulationen unerlässlich sind.
Der Prozess umfasste die Verwendung von nvcc, dem CUDA-Compiler von NVIDIA, zusammen mit vielen Iterationen der entsprechenden Optimierungsflags, um sicherzustellen, dass die Binärdateien richtig auf die Architektur des Servers abgestimmt waren. Durch die Einbeziehung der CUDA-Unterstützung in die GROMACS-Kompilierung kann die Software direkt mit der GPU-Hardware kommunizieren, was die Rechenzeiten für komplexe Simulationen drastisch verbessern kann.
Der Test: Benutzerdefinierte Proteininteraktion in Gromacs
Mithilfe einer von der Community bereitgestellten Eingabedatei aus unserem vielfältigen Discord, die Parameter und Strukturen enthielt, die auf eine bestimmte Proteininteraktionsstudie zugeschnitten waren, initiierten wir eine Molekulardynamiksimulation. Die Ergebnisse waren bemerkenswert: Das System erreichte eine Simulationsrate von 170.268 Nanosekunden pro Tag.
GPU | System | ns/Tag | Kernzeit(en) |
---|---|---|---|
Nvidia A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
5x NVIDIA L4 | Dell T560 mit 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Mehr als KI
Da der Hype um KI in aller Munde ist, kann man sich leicht an der Leistung von Modellen auf dem NVIDIA L4 orientieren, aber es hat auch noch ein paar andere Tricks im Ärmel, die eine Fülle von Möglichkeiten für Videoanwendungen eröffnen. Es kann bis zu 1,040 gleichzeitige AV1-Videostreams mit 720p30 hosten. Dies kann die Art und Weise verändern, wie Inhalte live an Edge-Benutzer gestreamt werden können, das kreative Storytelling verbessern und interessante Einsatzmöglichkeiten für immersive AR/VR-Erlebnisse bieten.
Der NVIDIA L4 zeichnet sich auch durch die Optimierung der Grafikleistung aus, was sich in seinen Fähigkeiten beim Echtzeit-Rendering und Raytracing zeigt. In einem Edge-Büro ist der L4 in der Lage, den Endbenutzern, die sie am meisten benötigen, eine robuste und leistungsstarke Beschleunigungsgrafikberechnung in VDI bereitzustellen, wenn eine hochwertige Grafikwiedergabe in Echtzeit unerlässlich ist.
Abschließende Gedanken
Die NVIDIA L4-GPU bietet eine solide Plattform für Edge-KI und Hochleistungs-Computing und bietet beispiellose Effizienz und Vielseitigkeit für mehrere Anwendungen. Seine Fähigkeit, intensive KI-, Beschleunigungs- oder Video-Pipelines zu bewältigen und die Grafikleistung zu optimieren, macht es zur idealen Wahl für Edge-Inferenz oder virtuelle Desktop-Beschleunigung. Die Kombination aus hoher Rechenleistung, erweiterten Speicherkapazitäten und Energieeffizienz macht den L4 zu einem wichtigen Akteur bei der Beschleunigung von Workloads am Edge, insbesondere in KI- und grafikintensiven Branchen.
Es besteht kein Zweifel daran, dass KI heutzutage das Auge des IT-Hurrikans ist und die Nachfrage nach den Monster-H100/H200-GPUs weiterhin explodiert. Es gibt aber auch große Bestrebungen, eine robustere IT-Ausrüstung an den Rand zu bringen, wo Daten erstellt und analysiert werden. In diesen Fällen ist eine geeignetere GPU erforderlich. Hier zeichnet sich der NVIDIA L4 aus und sollte die Standardoption für Edge-Inferencing sein, entweder als einzelne Einheit oder zusammen skaliert, wie wir es im T560 getestet haben.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed