Встретились обсудить недавно нашумевшую статью от ребят из Mother Duck - Big Data is Dead. Обсудили, как правильно использовать данные, чтобы получать действенные результаты, и ребята поделились своим реальным опытом. Также мы рассмотрели, какие проблемы возникают при работе с большими данными и как их можно решить. Мы ответили на вопрос, существует ли еще "big data", и зачем сейчас нужны дата-аналитики. Еще разобрались в 3х V - Volume (объем данных), компрессия DuckDB, кластерные облачные базы; в Velocity (скорость поступления данных), стриминг, шины, in-memory databases (DuckDB); в Variety (изменчивость данных).
Канал с анонсами https://t.me/megdu_skobok
Ламповый чат https://t.me/backend_megdu_skobkah
YouTube https://youtu.be/Z9c7YBZ2BHs
Полезные ссылки
📖 Hannes Mühleisen - DuckDB, an in-process analytical DBMS https://youtu.be/Z-6SnP6yzgo
📖 WHY USE DUCKDB FOR ANALYTICS? https://motherduck.com/blog/six-reasons-duckdb-slaps/
📖 Big Data is Dead https://motherduck.com/blog/big-data-is-dead/
📖 RTB (Real Time Bidding) https://rtb-media.ru/wiki/
📖 ClickBench — a Benchmark For Analytical DBMS https://benchmark.clickhouse.com
00:00 Приветствие
02:20 Что такое Big Data, volume, value, variety, velocity, and veracity
03:30 Объемы данных в Spotify
05:14 История появления понятия Big Data
06:12 Big Data explosion
12:33 Что такое BigQuery
14:12 Аналитика данных, дата сеты для обучения моделей
17:35 Эксперимент с инвертирование данных для дата сетов
20:17 Актуально ли сейчас учиться аналитике данных
22:03 OLAP vs OLTP
24:19 Резюме по Volume
25:30 Определение Velocity
27:34 RTB (Real Time Bidding)
29:53 Резюме по Velocity
31:42 Пример систем, где нужна real time аналитика
33:27 Определение Velocity
36:22 Пример использования DuckDB
38:30 Почему коллоночные базы такие быстрые, векторные операции
42:20 Война бэнчмарков, почему компании привирают, public relations
44:04 Определение Variety
56:23 Будущее работы с данными
58:00 Какая судьба у Vertica в мире дешевых и хороших инструментов
59:09 Что быстрее Spark или DuckDB
Владимир Балун, Вячеслав Горюнов, Виталий Лихачев: зачем переходить на Golang
Игорь Пересунько: работа в Startup vs Faang, какой путь выбрать
Distributed Systems Глава 9 Безопасность в распределенных системах | Михаил Курзин Александр Пахомов
Ганна Новикова, Виталий Лихачев: публичное собеседование по DevOps практикам
Мартин ван Стин: интервью с автором Distributed Systems
Distributed Systems Глава 8 Отказоустойчивость | Илья Казначеев, Валерий Жила
Блокчейн как распределенная система | Игорь Корсаков, Сергей Тихомиров
Distributed Systems Глава 7 Согласованность и репликация данных | Антон Жуков, Николай Ижиков
Distributed Systems Глава 5 Координация распределенного приложения | S0ER, Дмитрий Константинов
Виталий Лихачев, Наталья Саушкина: Публичное собеседование Senior Golang Engineer
Distributed Systems Глава 4 Межсервисное взаимодействие | Виктор Гамов, Андрей Ребров
Distributed Systems Глава 3 Процессы и Виртуализация | Евгений Козлов, Вячеслав Горюнов
Максим Суркиз: Как успешно запустить свой Startup
Гриша Скобелев, Саша Бармин: Публичное собеседование Senior Software Engineer
Distributed Systems Глава 2 Архитектура распределенных систем | Фрол Крючков, Иван Богатырёв
Distributed Systems Глава 1 Введение в распределенные системы | Юрий Бабак, Алексей Гончарук
Владимир Абазов, Александр Сальников: АБ-тесты, ограничения и альтернативы
Ярик Астафьев, Аксель Ткачев: публичное собеседование тимлида
Валерий Бабушкин, Арсений Кравченко: Интервью с авторами Machine Learning System Design
Ольга Елисеева: Как стать лучшим teamlead-ом
Create your
podcast in
minutes
It is Free
Insight Story: Tech Trends Unpacked
Zero-Shot
Fast Forward by Tomorrow Unlocked: Tech past, tech future
The Unbelivable Truth - Series 1 - 26 including specials and pilot
Lex Fridman Podcast