apache-spark — ответы на вопросы
-
python - Чтение данных в DataFrame из множественных txt-файловДокументация модуля PySpark не дает однозначного ответа как загрузить 10000...
- 1
- 6
- 1
- 6 янв 2018
- Stepan Sokol
-
java - Spark JavaRDD<String> to csv datasetЧто мы имеем: stream.foreachRDD(rdd->{ JavaRDD<String>...
- 8
- 24 янв 2018
- HideDJeker
-
hive - Обработка геномных данных на Hadoop?Какие существуют (сторонние) библиотеки/утилиты для обработки генетических...
- 6
- 17 янв 2018
- Alex Smith
-
алгоритм - Возможно ли ускорить полный перебор?Есть транспортная задача с промежуточными пунктами и ограничениями на пропускную...
- 2
- 4
- 7 янв 2017
- Александр Берлускони
-
-
Spark 2.1.0 на кластере со Spark 1.6.2На hadoop кластере используется spark 1.6.2 (CDH-5.8.3). Я хочу запустить...
- 6
- 1
- 14 янв 2017
- Andrew
-
scala - Как запустить Spark?Здраствуйте. Пользуюсь Hortonworks sandbox 2.6, и возникла проблема с запуском...
- 2
- 9
- 1
- 19 янв 2017
- Юлий Щербак
-
Как записать постоянное значение в файл паркета, используя Scala? - loopsЯ использую spark. Я хочу сохранить значение 2.484, которое повторяется...
- 1
- 11 май 2020
- Salma Elzeheiry
-
Невозможно найти класс: org.apache.beam.runners.core.metrics.MetricsContainerImpl $$ Lambda $ 31/1929817005...Я создал очень простое приложение для потоковой передачи луча, которое...
- 11 май 2020
- douyw
-
Py4JJavaError: SparkException: задание прервано из-за сбоя этапа - pythonЯ использую Spark через Pyspark. Я запускаю следующий пример с игрушкой...
- 11 май 2020
- Stockfish
-
-
Как исправить "Нераспознанный тип SQL -158" при чтении таблицы БД с использованием Apache Spark...Я пытаюсь получить данные из таблицы базы данных AdventureWorks2017, которая...
- 11 май 2020
- icekovic
-
Изменение порядка полей во вложенном фрейме данных - scalaКак изменить порядок полей во вложенном фрейме данных в Scala? например,...
- 2
- 11 май 2020
- user9672842
-
db.spark.exceptions.MongoTypeConversionException: невозможно преобразовать STRING в NullType (значение:...Я попытался сделать скрипт для ввода данных из MongoDB в корзину S3: val...
- 11 май 2020
- Carlo Jose
-
Невозможно тренировать модель с XgBoost - PySpark - machine-learningЯ пытаюсь обучить модель XgBoost с помощью Spark DataFrame, который выглядит...
- 2
- 11 май 2020
- SpaceMonkey
-
Почему потребительский код kafka зависает при запуске spark stream? - scalaЯ новичок в Kafka и пытаюсь реализовать потребительскую логику Kafka в...
- 1
- 11 май 2020
- Abhishek Allamsetty
-
-
Передать имя функции Spark SQL в качестве параметра в Scala - scalaЯ пытаюсь передать имя функции Spark SQL моей определенной функции в Scala....
- 2
- 11 май 2020
- Rio
-
NoClassDefFoundError при попытке запустить приложение Java Spark из командной строки - javaЯ пытаюсь запустить приложение, используя spark на java, но когда я пытаюсь...
- 1
- 11 май 2020
- tjf220
-
Какой код уже запускается, когда я открываю PySpark в оболочке? - shellЕсли я захочу запустить PySpark в Jupyter Notebook, я бы 1) выполните команду...
- 1
- 11 май 2020
- Iterator516
-
Как создать таблицу с индексом columnstore, используя Spark SQL DataFrame? - scalaЯ пытаюсь передать Spark SQL DataFrame на SQL Server в Azure SQL. Я хочу,...
- 11 май 2020
- Aetos
-
Создать RDD, используя ключ и значение - scalaУ меня есть список, который содержит кортежи строки list = [("A", "B"),...
- 1
- 11 май 2020
- dhiraj
-
-
Почему бы искру не столкнуться с проблемами сериализации с этим куском кода искры - closuresЯ пытаюсь понять, почему бы не столкнуться с проблемами сериализации при...
- 11 май 2020
- Abdul Rahman
-
Спарк лимит количество исполнителей на услугу - apache-sparkМы используем Spark Streaming (Java) для вычислений в реальном времени....
- 1
- 11 май 2020
- Shishir
-
Ошибка при восстановлении msck для таблицы с секционированной датой (формат паркета) - hiveгуру - я пытаюсь сделать spark.write, разбитый на столбец даты и хранящий...
- 1
- 11 май 2020
- SWDeveloper
-
Как добавить новый обнуляемый столбец String в DataFrame, используя Scala - scalaВероятно, есть по крайней мере 10 вопросов, очень похожих на это, но я...
- 2
- 11 май 2020
- ibaralf
-
как использовать HyperLogLogPlus в pyspark - apache-sparkЯ пытаюсь использовать приблизительное число, отличное в pyspark, используя...
- 11 май 2020
- user2926523
-
-
Исключение класса Cast в операции Spark count() на фрейме данных с avro - apache-sparkЯ использую Zeppelin для запуска следующего. Я также загружаю схему avro...
- 11 май 2020
- Eos Antigen
-
Spark Structured Streaming - обработка событий с операцией Window при обработке потоков с сохранением...Я новичок в обработке структурированной потоковой передачи Spark и в настоящее...
- 1
- 11 май 2020
- Avinash
-
Как использовать org.apache.httpcomponents внутри задания на работу в Hadoop/Spark? - javaЯ пытаюсь запустить искровое задание в кластере Hadoop, который также отправляет...
- 11 май 2020
- Igneous01
-
Scala: средний UDF для столбца фрейма данных, разделенного соседними столбцами - scalaУ меня есть DataFrame со столбцами "id", "Month", "Day", "Hour" и "value"....
- 1
- 11 май 2020
- Shane318
-
spark.sql не может выполнить базовый вызов SQL. Выпуск на ОТ - sqlЯ в основном хочу получить название, количество звезд и количество отзывов...
- 1
- 11 май 2020
- doomdaam
-
-
Как остановить Spark для разрешения столбца UDF в условном выражении - apache-sparkЯ хочу выполнить некоторое условное ветвление, чтобы избежать вычисления...
- 1
- 11 май 2020
- user1371314
-
Инициализируйте оболочку PySpark, запустив скрипт в моем терминале Linux (Spark версии 2.4.4) - linuxЯ использую PySpark на моем компьютере с Linux. Моя версия Spark 2.4.4....
- 2
- 11 май 2020
- Iterator516
-
Сбой задания с ошибкой памяти в pyspark в режиме кластера - apache-sparkЯ выполняю около 80 запросов, используя spark.sql и createAndReplaceTempView....
- 11 май 2020
- SUBHOJEET
-
Spark Yarn Cluster - ошибка java.lang.QaruError, когда число столбцов куста больше 200 - hiveЯ пытаюсь загрузить CSV файл из 250 столбцов с помощью Apache Spark во...
- 11 май 2020
- Naresh Krishnamoorthy
-
Невозможно подключиться к MS SQL из Apache Spark с помощью pyspark на ноутбуке Jupyter - pythonЯ пытаюсь загрузить данные с сервера MS SQL, используя pyspark в Jupyter...
- 2
- 7 май 2020
- Harvey
-
-
преобразовать Spark DataFrame в словарь Scala, как формат - dictionaryУ меня есть искровой фрейм данных, который мне нужно преобразовать в пары...
- 2
- 7 май 2020
- toofrellik
-
Имеет ли AWS Glue Jobs какое-либо отношение к конечным точкам разработчиков? - amazon-web-servicesВчера, когда я пытался запустить свое задание Glue, которое подключается...
- 1
- 7 май 2020
- karthikeayan
-
Удаление дублирующих пар столбцов после самостоятельного объединения в искре - scalaУ меня есть датафрейм с двумя столбцами: one = {cID: string, details:...
- 7 май 2020
- sophie8
-
Spark Scala Zuinnote API для чтения файла Excel с двойными кавычками - excelУ меня есть файл Excel, который имеет следующие столбцы, Column1 Column2value1...
- 7 май 2020
- ashK
-
Как исправить java.lang.NoSuchMethodError: scala.collection.immutable. $ Colon $ colon.hd $ 1() Ljava/lang/Object...Итак, я начал писать свой собственный рабочий процесс Oozie, который содержит...
- 7 май 2020
- Windforces
-
-
Нужен список столбцов, значение которых больше 0 в pyspark - pythonУ меня есть данные ниже: >>> dfStd1.show()+---+----+------+-------+-----------------------------------------------+------+|...
- 1
- 7 май 2020
- Siddhesh Kalgaonkar
-
Перерабатывать озеро дельта в озеро дельта как ручей - apache-sparkЯ хочу обработать файл дельты озера в файл дельты озера, что-то вроде:...
- 7 май 2020
- Роман Коптев
-
Хранение в озере дельта всегда рекомендуется на паркете? - apache-sparkЕсть ли какие-либо недостатки использования хранилища дельта озера по сравнению...
- 7 май 2020
- Uli Bethke
-
Java Spark - шифрование данных - javaУ меня есть библиотека Java, которая может шифровать данные. Я хочу зашифровать...
- 7 май 2020
- user3603360
-
Столбцы не сохраняют порядок, а столбцы с нулевыми значениями исключаются при записи в CosmosDB из Spark....Я попытался скопировать данные в коллекцию cosmosDB из кадра данных в искре....
- 7 май 2020
- Antony
-
-
Искра: уменьшить двойную точность - apache-sparkЯ хочу объединить двойные поля в строковое поле, уменьшив точность (6 чисел)....
- 1
- 7 май 2020
- Rolintocour
-
Tweepy Streaming Socket не может отправить предварительно обработанный текст - pythonУ меня есть две программы, которые подключаются через сокеты. Одним из...
- 1
- 7 май 2020
- NKK
-
Как перебрать множество скриптов Hive поверх spark - sqlУ меня есть много скриптов улья (примерно 20-25 скриптов), каждый из которых...
- 1
- 7 май 2020
- Ayush
-
удалить первый символ столбца искровой строки - scalaИнтересно, как я уже сказал в заголовке, как удалить первый символ столбца...
- 1
- 7 май 2020
- a.moussa
-
Spark ThriftServer - current_user() UDF возвращает пустое значение - apache-sparkМы запускаем искру (2.3.4) на ЭМИ. Мы могли бы запустить сервер spark thrift...
- 7 май 2020
- reddy
-
-
Почему спарк-фрейм и набор данных имеют разные результаты? - apache-sparkЯ знаю, что DataFrame - это набор данных Row. Поэтому я получаю тот же...
- 7 май 2020
- grep