이 페이지는 시험 연구소 브레인덤프에서 내보냈습니다. [ http://blog.examslabs.com ]
내보내기 날짜: 금 12 27 4:05:50 2024 / +0000 GMT

CCA175 시험에 새로운 2022 유효 연습 문제(업데이트된 96문항) [Q38-Q52] 받기




CCA175 시험에 새로운 2022 유효 연습 문제(96문항 업데이트) 받기

클라우데라 공인 CCA175 시험 실제 시험 문제 덤프 번들!


CCA175 시험으로 경력 쌓기

IT 업계에서 오랫동안 일하면서 경력을 업그레이드하고 싶은 사람은 Cloudera Certified Advanced Architect- 데이터 엔지니어 시험을 준비 할 수 있습니다. 클라우데라 공인 고급 아키텍트- 데이터 엔지니어 시험의 코딩을 통해 시험 문제를 더 쉽게 풀 수 있습니다. 클라우데라 공인 고급 아키텍트- 데이터 엔지니어 시험 문제를 다운로드하세요. CCA175시험 문제를 풀면 시험 문제를 더 쉽게 풀 수 있습니다. CCA175 시험 문제의 데이터 세트는 매우 유용합니다. CCA175 시험 문제를 푸는 데 파이썬이 사용되고 있습니다. CCA175 시험 문제 보기. 데이터 프레임은 CCA175 시험 문제를 푸는 데 사용됩니다. 클라우데라 CCA175시험 덤프 는 시험 문제를 찾을 수 있는 가장 좋은 자료입니다. CCA175 시험 문제를 검토하는 것만으로도 시험에 합격할 수 있습니다. Cloudera Certified Advanced Architect- Data Engineer 시험 문제 소지. 클라우데라 공인 고급 아키텍트- 데이터 엔지니어 시험의 코딩을 통해 시험 문제를 더 쉽게 풀 수 있습니다. ISA 자격증은 경력을 업그레이드하는 데 활용되고 있습니다. 시험 문제를 메모해 두세요. CCA175 시험 문제의 답은 가장 적절한 방식으로 준비되고 있습니다. 시험 문제 풀이 방법을 알아보세요.

Cloudera Certified Advanced Architect- Data Engineer 시험의 복습을 통해 시험 문제를 더 쉽게 검토할 수 있습니다. Cloudera 공인 고급 아키텍트- 데이터 엔지니어 시험의 구성은 시험에서 성공하기에 충분합니다. Cloudera Certified Advanced Architect- Data Engineer 시험의 도구는 매우 유용합니다. CCA175 시험 문제는 가장 적절한 방식으로 준비되고 있습니다.

 

NO.38 텍스트 수정
문제 시나리오 68 : 아래와 같은 파일이 주어졌습니다.
spark75/f ile1.txt
파일에 일부 텍스트가 포함되어 있습니다. 아래와 같이
spark75/file1.txt
Apache Hadoop은 상용 하드웨어로 구축된 컴퓨터 클러스터에서 대용량 데이터 세트의 분산 저장 및 분산 처리를 위해 Java로 작성된 오픈 소스 소프트웨어 프레임워크입니다. Hadoop의 모든 모듈은 하드웨어 장애가 일반적이며 프레임워크에서 자동으로 처리되어야 한다는 기본 가정 하에 설계되었습니다.
아파치 하둡의 핵심은 하둡 분산 파일이라는 스토리지 부분으로 구성됩니다.
시스템(HDFS)과 MapReduce라는 처리 부분으로 구성됩니다. Hadoop은 파일을 큰 블록으로 분할하여 클러스터의 노드에 분산시킵니다. 데이터를 처리하기 위해 Hadoop은 처리해야 하는 데이터에 따라 노드가 병렬로 처리할 수 있도록 패키지화된 코드를 전송합니다.
그의 접근 방식은 고속 네트워킹을 통해 계산과 데이터가 분산되는 병렬 파일 시스템에 의존하는 기존의 슈퍼컴퓨터 아키텍처보다 데이터 집합을 더 빠르고 효율적으로 처리할 수 있도록 액세스 권한이 있는 데이터를 조작하는 데이터 로컬리티 노드를 활용합니다.
조금 더 복잡한 작업을 위해 문서의 문장을 단어 빅그램으로 분할하는 방법을 살펴봅시다. 빅그램은 어떤 순서로 연속된 토큰 쌍입니다.
각 문장의 단어 시퀀스에서 빅그램을 만드는 방법을 살펴본 다음, 가장 자주 등장하는 단어를 찾아보겠습니다.
첫 번째 문제는 초기 RDD의 각 파티션에 있는 값이 문장이 아닌 파일의 줄을 설명한다는 것입니다. 문장은 여러 줄에 걸쳐 분할될 수 있습니다. glom() RDD 메서드를 사용하여 모든 줄의 목록을 포함하는 각 문서에 대해 단일 항목을 만든 다음, 줄을 합친 다음 "."를 구분 기호로 사용하여 문장으로 재분할하고 flatMap을 사용하여 RDD의 모든 객체가 이제 문장이 되도록 할 수 있습니다.
빅그램은 어떤 순서로 연속된 토큰 쌍입니다. 각 문장의 단어 시퀀스에서 빅그램을 만든 다음 가장 자주 등장하는 단어를 찾아보세요.

NO.39 텍스트 수정
문제 시나리오 75: 다음과 같은 세부 정보가 포함된 MySQL DB가 주어졌습니다.
user=retail_dba
비밀번호=클라우데라
데이터베이스=retail_db
table=retail_db.orders
table=retail_db.order_items
jdbc URL = jdbc:mysql://quickstart:3306/retail_db
다음 활동을 수행하세요.
1. "retail_db.order_items" 테이블을 각 디렉토리의 hdfs에 복사합니다 p90_order_items .
2. 파이스파크를 사용하여 이 표의 전체 수익을 합산합니다.
3. 최대 수익과 최소 수익도 구합니다.
4. 평균 수익 계산
ordeMtems 테이블의 열 : (주문_아이템_아이디 , 주문_아이템_주문_아이디 ,
주문_아이템_제품_ID, 주문_아이템_수량, 주문_아이템_소계, 주문_.
item_subtotal,order_item_product_price)

NO.40 텍스트 수정
문제 시나리오 81: 다음과 같은 세부 정보가 포함된 MySQL DB가 주어졌습니다. 다음과 같은 product.csv 파일이 주어졌습니다. product.csv 제품ID, 제품 코드, 이름, 수량, 가격
1001,PEN,펜 레드,5000,1.23
1002,PEN,펜 블루,8000,1.25
1003,PEN,펜 블랙,2000,1.25
1004,PEC,연필 2B,10000,0.48
1005,PEC,연필 2H,8000,0.49
1006,PEC,연필 HB,0,9999.99
이제 다음 활동을 수행하세요.
1 . SparkSql을 사용하여 하이브 ORC 테이블 만들기
2 . 이 데이터를 하이브 테이블에 로드합니다.
3 . SparkSQL을 사용하여 Hive 마루 테이블을 만들고 그 안에 데이터를 로드합니다.

NO.41 텍스트 수정
문제 시나리오 32: 아래와 같이 세 개의 파일이 주어졌습니다.
spark3/sparkdir1/file1.txt
spark3/sparkd ir2ffile2.txt
spark3/sparkd ir3Zfile3.txt
각 파일에는 일부 텍스트가 포함되어 있습니다.
spark3/sparkdir1/file1.txt
Apache Hadoop은 상용 하드웨어로 구축된 컴퓨터 클러스터에서 대규모 데이터 세트의 분산 저장 및 분산 처리를 위해 Java로 작성된 오픈 소스 소프트웨어 프레임워크입니다. Hadoop의 모든 모듈은 하드웨어 장애가 일반적이며 프레임워크인 spark3/sparkdir2/file2.txt에서 자동으로 처리되어야 한다는 기본 가정 하에 설계되었습니다.
아파치 하둡의 핵심은 하둡 분산 파일이라는 스토리지 부분으로 구성됩니다.
시스템(HDFS)과 MapReduce라는 처리 부분으로 구성됩니다. Hadoop은 파일을 큰 블록으로 분할하여 클러스터의 노드에 분산시킵니다. 데이터를 처리하기 위해 Hadoop은 처리해야 하는 데이터에 따라 노드가 병렬로 처리할 수 있도록 패키지화된 코드를 전송합니다.
spark3/sparkdir3/file3.txt
그의 접근 방식은 고속 네트워킹을 통해 계산과 데이터가 분산되는 병렬 파일 시스템에 의존하는 기존의 슈퍼컴퓨터 아키텍처보다 데이터 집합을 더 빠르고 효율적으로 처리할 수 있도록 액세스 권한이 있는 데이터를 조작하는 데이터 로컬리티 노드를 활용합니다.
이제 이 세 파일을 모두 hdfs에서 로드하고 다음 단어를 필터링하여 단어 수를 계산하는 스파크 코드를 스칼라로 작성합니다. 그리고 결과는 단어 수에 따라 역순으로 정렬되어야 합니다.
단어("a","the","an","as","a","with","this","these","is","are","in","for")를 필터링합니다,
"to","and","The","of")
또한 세 파일을 모두 단일 RDD로 로드해야 합니다(세 파일 모두 단일 API 호출을 사용하여 로드해야 합니다).
또한 다음과 같은 코덱이 제공됩니다.
org.apache.hadoop.io.compress.GzipCodec 가져오기
파일을 압축할 때는 위의 코덱을 사용하고, 저장할 때는 hdfs로 저장하세요.

NO.42 텍스트 수정
문제 시나리오 13 : 다음과 같은 mysql 데이터베이스 세부 정보 및 기타 정보가 제공됩니다.
user=retail_dba
비밀번호=클라우데라
데이터베이스=retail_db
jdbc URL = jdbc:mysql://quickstart:3306/retail_db
다음을 수행하세요.
1. 소매점에 다음 정의를 사용하여 테이블을 만듭니다.
CREATE 테이블 departments_export(department_id int(11), department_name varchar(45), created_date T1MESTAMP DEFAULT NOWQ)를 만듭니다;
2. 이제 다음 디렉터리의 데이터를 departments_export 테이블로 가져옵니다,
/사용자/클라우데라/부서 신규

NO.43 텍스트 수정
문제 시나리오 35: spark7/EmployeeName.csv라는 파일이 주어졌습니다.
(아이디, 이름).
EmployeeName.csv
E01,로케시
E02,Bhupesh
E03,Amit
E04,라탄
E05,디네쉬
E06,파반
E07,Tejas
E08,쉴라
E09,쿠마르
E10, 벤캇
1. hdfs에서 이 파일을 불러와 이름별로 정렬한 후 결과 디렉터리에 (id,name)으로 다시 저장합니다. 단, 저장하는 동안 단일 파일에 쓸 수 있어야 합니다.

NO.44 텍스트 수정
문제 시나리오 64: 아래 코드 스니펫이 주어졌습니다.
val a = sc.parallelize(List("개", "연어", "연어", "쥐", "코끼리"), 3) val b = a.keyBy(_.length) val c = sc.parallelize(Ust("개","고양이","그누","연어","토끼","칠면조","늑대","곰","벌), 3) val d = c.keyBy(_.length) operation1
아래와 같이 원하는 출력을 생성하는 올바른 코드 스니펫을 작성합니다.
Array[(lnt, (Option[String], String))] = Array((6,(일부(살몬),살몬)),
(6,(일부(연어),토끼}}, (6,(일부(연어),칠면조)), (6,(일부(연어),연어)),
(6,(일부(연어),토끼)), (6,(일부(연어),칠면조)), (3,(일부(개),개)),
(3,(일부(개),고양이)), (3,(일부(개),누)), (3,(일부(개),벌)), (3,(일부(쥐)),
(3,(일부(쥐),고양이)), (3,(일부(쥐),쥐)), (3,(일부(쥐),벌)), (4,(없음,wo!f)),
(4,(없음,곰))))

NO.45 텍스트 수정
문제 시나리오 27 : 아래 정보를 파일로 제출할 때 정보를 수집하기 위해 실시간에 가까운 솔루션을 구현해야 합니다.
데이터
echo "IBM,100,20160104" >> /tmp/spooldir/bb/.bb.txt
echo "IBM,103,20160105" >> /tmp/spooldir/bb/.bb.txt
mv /tmp/spooldir/bb/.bb.txt /tmp/spooldir/bb/bb.txt
몇 분 후
echo "IBM,100.2,20160104" >> /tmp/spooldir/dr/.dr.txt
echo "IBM,103.1,20160105" >> /tmp/spooldir/dr/.dr.txt
mv /tmp/spooldir/dr/.dr.txt /tmp/spooldir/dr/dr.txt
요구 사항:
아래 디렉터리 위치가 제공됩니다(생성하지 않은 경우) /tmp/spooldir .
블룸버그로부터 주가를 받기 위한 금융 구독이 있습니다.
Reuters와 ftp를 사용하면 각각 /tmp/spooldir/bb 및 /tmp/spooldir/dr 디렉터리에 있는 해당 ftp 사이트에서 매 시간마다 새 파일을 다운로드합니다.
이 디렉터리에 커밋된 파일 중 hdfs에서 사용할 수 있어야 하는 파일은 즉시
단일 디렉토리의 /tmp/flume/finance 위치에 저장합니다.
flume7.conf라는 이름의 플룸 구성 파일을 작성하고 이 파일을 사용하여 다음과 같은 추가 속성을 가진 hdf에서 데이터를 로드합니다.
1 . 스풀 /tmp/spooldir/bb 및 /tmp/spooldir/dr
2 . hdfs의 파일 접두사는 이벤트여야 합니다.
3 . 파일 접미사는 .log여야 합니다.
4 . 파일이 커밋되지 않고 사용 중인 경우 접두사로 _가 있어야 합니다.
5 . 데이터는 텍스트 형식으로 hdfs에 기록해야 합니다.

NO.46 텍스트 수정
문제 시나리오 21 : 아래와 같이 로그 생성 서비스가 제공되었습니다.
시작조그(연속 로그 생성)
테일조그 (어떤 로그가 생성되고 있는지 확인할 수 있음)
stopjogs (로그 서비스를 중지합니다)
위의 서비스를 사용하여 로그가 생성되는 경로: /opt/gen_logs/logs/access.log
이제 flumel.conf라는 이름의 flume 구성 파일을 작성하고, 이 구성 파일을 사용하여 flumel이라는 디렉터리에 있는 HDFS 파일 시스템의 로그를 덤프합니다. Flume 채널에는 다음과 같은 속성도 있어야 합니다. 100개의 메시지마다 커밋되어야 하고, 비내구성/고속 채널을 사용해야 하며, 최대 1000개의 이벤트를 저장할 수 있어야 합니다.
솔루션 :
1단계: 소스, 싱크, 채널에 대한 아래 구성으로 플룸 구성 파일을 생성합니다.
#D소스, 싱크, 채널 및 에이전트를 정의합니다,
에이전트1 .소스 = 소스1
에이전트1 .싱크 = 싱크1
agent1.channels = channel1
# 소스 설명/구성1
에이전트1 .sources.source1.type = 실행
agent1.sources.source1.command = tail -F /opt/gen logs/logs/access.log
## 싱크 설명하기
에이전트l .sinks.sinkl.channel = 메모리 채널
에이전트l .sinks.sinkl .type = hdfs
에이전트l .sinks.sink1.hdfs.경로 = flumel
에이전트l .sinks.sinkl.hdfs.fileType = 데이터 스트림
# 이제 채널 속성을 정의해야 합니다.
agent1.channels.channel1.type = 메모리
agent1.channels.channell.capacity = 1000
agent1.channels.channell.transactionCapacity = 100
# 소스와 싱크를 채널에 바인딩합니다.
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1
2단계 : 아래 명령을 실행하면 이 구성 파일을 사용하고 hdfs에 데이터를 추가합니다.
다음을 사용하여 로그 서비스 시작 : startjogs
플룸 서비스를 시작합니다:
flume-ng 에이전트 -conf /home/cloudera/flumeconf -conf-file
/home/cloudera/flumeconf/flumel.conf-Dflume.root.logger=DEBUG,INFO,console
몇 분간 기다린 후 로그 서비스를 중지합니다.
Stop_logs

NO.47 텍스트 수정
문제 시나리오 31 : 다음 두 파일을 제공했습니다.
1 . Content.txt: 공백으로 구분된 단어가 포함된 대용량 텍스트 파일을 포함합니다.
2 . Remove.txt: 이 파일에 지정된 모든 단어를 무시/필터링합니다(쉼표로 구분).
Content.txt 파일을 읽고 RDD로 로드하는 Spark 프로그램을 작성하고, 브로드캐스트 변수에서 모든 단어를 제거합니다(Remove.txt에서 단어의 RDD로 로드됨).
그리고 각 단어의 발생 횟수를 계산하여 HDFS에 텍스트 파일로 저장합니다.
Content.txt
안녕하세요 ABCTech.com입니다.
TechABY.com입니다.
아파치 스파크 교육
스파크 학습 세션입니다.
맵리듀스보다 빠른 Spark
Remove.txt
안녕하세요, 이것은

NO.48 텍스트 수정
문제 시나리오 95 : 각 실행기가 있는 원사에서 Spark 애플리케이션을 실행해야 합니다.
최대 힙 크기는 512MB이고 각 실행기에 할당할 프로세서 코어 수는 1이며 기본 애플리케이션에는 입력 인자로 세 가지 값이 필요합니다.
V2 V3.
XXX, YYY, ZZZ로 바꿔주세요.
./bin/spark-submit -class com.hadoopexam.MyTask -master yarn-cluster-num-executors 3
-드라이버-메모리 512m XXX YYY lib/hadoopexam.jarZZZ

NO.49 텍스트 수정
문제 시나리오 19 : 다음과 같은 mysql 데이터베이스 세부 정보 및 기타 정보가 제공됩니다.
user=retail_dba
비밀번호=클라우데라
데이터베이스=retail_db
jdbc URL = jdbc:mysql://quickstart:3306/retail_db
이제 다음 활동을 수행하세요.
1. departments_text 디렉터리의 텍스트 파일로 mysql에서 hdfs로 부서 테이블을 가져옵니다.
2. 부서 테이블을 mysql에서 부서_sequence 디렉터리의 sequncefile로 hdfs로 가져옵니다.
3. 부서 avro 디렉터리에 있는 부서 테이블을 mysql에서 hdfs로 avro 파일로 가져옵니다.
4. 부서 테이블을 mysql에서 hdfs로 부서_parquet 디렉터리에 있는 parquet 파일로 가져옵니다.

NO.50 텍스트 수정
문제 시나리오 1:
다음과 같은 세부 정보가 포함된 MySQL DB가 제공됩니다.
user=retail_dba
비밀번호=클라우데라
데이터베이스=retail_db
table=retail_db.categories
jdbc URL = jdbc:mysql://quickstart:3306/retail_db
다음 활동을 수행하세요.
1 . MySQL DB를 연결하고 테이블의 내용을 확인합니다.
2 . 디렉터리 이름을 지정하지 않고 "retaildb.categories" 테이블을 hdfs에 복사합니다.
3 . "retaildb.categories" 테이블을 디렉토리 이름 "categories_target"의 hdfs에 복사합니다.
4 . "retaildb.categories" 테이블을 웨어하우스 디렉터리 이름에 있는 hdfs에 복사합니다.
"카테고리의_창고".

NO.51 텍스트 수정
문제 시나리오 52: 아래 코드 스니펫이 주어졌습니다.
val b = sc.parallelize(List(1,2,3,4,5,6,7,8,2,4,2,1,1,1,1,1,1))
Operation_xyz
아래와 같은 출력을 생성하는 Operation_xyz에 대한 올바른 코드 스니펫을 작성합니다.
scalaxollection.Map[lnt,Long] = Map(5 -> 1, 8 -> 1, 3 -> 1, 6 -> 1, 1 -> S, 2 -> 3, 4 -> 2, 7 ->
1)

NO.52 텍스트 수정
문제 시나리오 93: 로컬 8스레드 또는 8코어에서 로컬로 Spark 애플리케이션을 실행해야 합니다. XXX를 올바른 값으로 바꾸세요.
spark-submit -class com.hadoopexam.MyTask XXX -deploy-mode cluster
SSPARK_