# Datasets exchange community Поиск и обмен больших обьемов структурированных данных, готовых к употреблению ml специалистами представляет из себя проблему(По результатам короткого кастдева). При этом датасаентисты - основные потребители результата работы Labelants и как правило запрос на размеченные данные внутри компаний исходит от них же. Задумка - Построить сообщество датасаентистов, на основе обмена датасетами. Датасаенисты и пользователи должны быть аффилиейтами для продажи услуг Labelants своим работодателям. В основе этого сообщества хорошо лёг бы софт для быстрого, удобного и безопасного обмена датасетами с переводом в задач labelants, когда опенсорсных данных недостаточно и необходима дополнительная или качественная разметка. Ценностью сообщества должны являться материалы связанные с обучением, обмену и поиском данных среди дата специалистов. Само сообщество разумно создать на движке типа https://tribe.so. Основа в виде ПО для обмена данными нужна, кроме как для внутренней помощи компании и для того, чтобы при создании сообщеста не конкурировать с ребятами типа https://ods.ai Поток клиентов планируем из Линкедина, платной и бесплатной рекламы, холодных емейлов, посещением и выступлением на конференциях, возможно организацией собственной конференции. У нас есть готовые инструменты по массовой рассылке email, по массовому поиску контактов и большой пул нетворкинга. В планах с командой, которая описана ниже можно добиться к концу года $1.5-2 млн годового оборота на разметке и потенциально еще половину от этой суммы на коммьюнити и обмене/продаже данных. Если мы будем создавать свои инструменты разметки и другие сервисы, которые можно использовать по подписке, то вполне можно будет поднимать инвестиции через год у VC. ### Обмен данными Хотелось бы, чтобы обмен данными проходил в формате [W3C Schema Datasets](https://schema.org/Dataset) и с поддержкой [Structured data](https://developers.google.com/search/docs/data-types/dataset?hl=ru#structured-data-type-definitions) и их не приходилось туда сюда перекачивать - решением является пиринговый обмен данными. Децентрализованный веб для этого подарил нам [Interplanetary Filesystem](https://ipfs.io) [QRI](https://qri.io/) как будто спёрли идею из головы и сделали софтину для обменна данными подходящую по всем хотелкам, кроме обмена зашифрованными датасетами. Datasets version control(https://github.com/qri-io/qri) + datasets exchange + ui + cli(прямая интеграция данных в софтины типа cvat) для неё на основе пиринговой файловой системы ipfs.io Идеальный вариант запартнёриться с ними, но у них открыты исходники под лицензией gpl3(а значит мы можем форкнуть их код и сделать свою опенсорсную(следую лицензии!) версию с блекджеком и ~~шлю....~~ обменом датасетами) минусом является, что в открытом доступе нет варианта обмениваться зашифрованными датасетами. В случае форка, нужно решить следующие проблемы: 1. Обмен зашифрованными датасетами. (AES Encryption) 2. Поиск и обмен датасетов(у qri всё бесплатно и открыто, для поиска испольузется https://qri.cloud) 3. Создание механизма покупки/продажи данных 4. Неудобный поиск датасетов в qri.cloud Структурно поиск данных и разделы сообщества лучше делать как структура https://paperswithcode.com, чтобы искать данные под определённые задачи машинного обучения. Для примера UI qri ![](https://i.imgur.com/2UGya5y.png) ## Marketing and Affiliate program В качестве движка для аффилиейт программы предлагаю использовать https://tapaffiliate.com Процесс привлечения клиентов: 0. Бесконечный поиск спикеров и обучающих партнёров с тематиками Data Engeneering, кооперация с интстиутами и обучающими заведениями. 1. Linkedin Helper - нонстоп поиск датасаентистов/датаинженеров/датаменеджеров, с предложением вступить в сообщество по обмену данными. 2. Короткий каст дев, чтобы узнать в каких релевантных компаниях работают и предложить аффилиейт программу Labelants. 3. Кооперация с текущими авторами блогов и текстов тематик Data Engeneering, Data science за аффилиейт вознаграждение. 4. Прямые продажи и обработка продажниками компаний, на которые удаётся выйти через интро внешних людей или людей из сообщества. ## Datasets marketplace Дешёвый вариант: Подумать как прикрутить маркетплейс к чему-то типа shopify.com Дорогой вариант: Самим либо при партнёрстве с qri прикрутить продажу/покупку данных поверх [qri desktop](https://github.com/qri-io/desktop) ## Create community saas list https://circle.so/ - с видео https://tribe.so https://hivebrite.com/ ## Правила сообщества Закрытое? Открытое? Стоит обсудить всякие разные варианты их плюсы и минусы. ## Бизнес процессы и люди ### Управляющие - Менеджмент - CEO - COO - Bizdev - продакт менеджер ### Операционные - Продажники - sales - affilate - Разработчики (Макс) - фронт - бэк - Маркетинг - маркетолог - SMM - контент-маркетолог - лидгенщик - организатор мероприятий - комьюнити мейкер ### Бэк-офис - бухгалтер - юрист - поддержка - ассистент - HR ## Вопросы Вопросы к qri: 1. How to exchange datasets with aes encryption? 2. Is it possible to collaborate with you on data labeling services? 3. Is it possible to sell data using qri? 4. Is there integration with cvat https://github.com/openvinotoolkit/cvat or other annotation software? 5. Is it possible to build into the QRI a form to request datasets to labelants that are needed, but they can not be found? К нам: 1. Как обьеденить аффилиейт компанию и маркетплейс и можно ли это сделать малой кровью с помощью saas сервисов? 2. Как доставать приватные датасеты? 3. Как убеждать компании продавать структурированные данные? 4. Как зайти в QRI? Можем ли запартнёриться с ними на основе контент-маркетинг истории? 5. Возможно стоит сделать закрытое сообщество? С вступлением за внесение данных? Если так как оценивать ценность внесённых данных? 6. Какая у нас экономическая модель? Комиссия с продажи/ разовый сбор и тд? Или это именно некоммерческий ОБМЕН данными? 8. Кто назначает цену за датасет? Согласовывается ли она с нами (имеется ввиду Labelants) с целью защиты от завышенных и заниженных цен? 10. В конечном итоге, мы связываем продавца и покупателя или ведем сделку от своего имени? 11. Необходма валидация датасетов и при больших объемах это могут быть существенные затраты. На кого ложатся эти затраты (продавец/ Labelants)? 12. Где хранится датасет до момента совершения сделки, у продавца или у Labelants? ## Реализация 1. Оценить спрос. //В принципе это уже сделано и анализ показывает, что спрос на подобного рода площадку есть// 2. Оценить предложение. //Тут уже сложнее, я не очень понимаю кто и какими данными готов делиться и готов ли вообще// 3. Разработка самого маркетплейса с учетом всех вышеуказнных моментов (обмен зашифрованными данными, удобный интерфейс просмотра образцов датасетов и тд). 4. ... ## Маркетплейс Ключевая задумка — повторить успех крпных торговых площадок типа Авито, Ozon, Ebay и тд с ориентацией на продажу датасетов. Неободимо предусматреть удобный интерфейс фильтрации и сортировки по типу данных, типу разметки, сферам применения, качеству, лицензии и тд. Сделать удобный личный кабинет для продавца и покупателя (с историей сделок, отзывами, оценками). Надо продумать анкету (опросный лист) при выставлении данных на продажу. У пакупателя должен быть удобный интерфейс для просмора тестовых образцов данных без скачивания. С юридической стороны надо максимально автоматизировать процесс договороной работы, разработать шаблоны договоров, публичные оферты, автоматизировать выставление счетов для юр лиц. Возможно имеет смысл прикурутить какие-нибудь платежные системы. Необходимо реализовать внутриний чат для общения продавца и покупателя, но при этом продумать его модерацию, чтобы исключить сделки мимо нас. Необходмо решить вопрос у кого храняться данные до момента продажи (у продавца либо на наших серверах) и от чьего имени будет заключатся сделка с покупателем (от нашего либо от имени продавца). Можно продумать прогрессивную комиссию — чем больше сделок, тем меньше комиссия. Если маркетплейс будет достаточно развит, то можно дать возможность бартерного обмена данными и тогда идея создания сообщества в принципе станет не актуальна. Пример ![](https://i.imgur.com/sobTuom.png) ## Сообщество Делать закрытое полный бред. Делаем открытое и заводим все соц. сети которые надо будет вести и писать разные интересные статьи о проделанной работе (типа собрали датасет говна птиц и сделали его детекцию + классификацию на наличие какого-либо корма) для этого нужен не просто редактор, а именно датасаентист + статьи всякие про новинки в области датасаенса. Так же необходимо будет проводить какие-то ивенты по общению в живую и т.д. Так же необходимо рассмотреть возможность скидок и накопительных бонусов, розыгрышей и так далее, возможно какая-то реферальная программа. ## Ссылки https://ipfs.io https://qri.io https://tribe.so https://ods.ai https://github.com/martindbp/ipvc https://developers.google.com/search/docs/data-types/dataset?hl=ru#guidelines https://docs.ipfs.io/concepts/usage-ideas-examples/ https://github.com/TroyWilson1/ipfs-add-from-encrypted/blob/master/ipfs-add-from-encrypted.py https://blog.ceramic.network/how-to-store-signed-and-encrypted-data-on-ipfs/