<@U06TM7M40RK> 0.13.3버전에서 snowflake의 recipe 속성중 profiling에 대해서 설명해줘.
DataHub의 0.13.3 버전에서 Snowflake의 recipe 속성 중 profiling에 대한 설정 옵션을 설명드리겠습니다. 이 설정은 데이터 프로파일링을 통해 데이터의 품질과 특성을 분석하는 데 사용됩니다. 아래는 주요 프로파일링 설정 옵션들입니다:
- enabled: 프로파일링을 활성화할지 여부를 결정합니다. 기본값은
False
입니다. - catch_exceptions: 프로파일링 중 예외를 잡을지 여부를 결정합니다. 기본값은
True
입니다. - field_sample_values_limit: 모든 컬럼에 대해 수집할 샘플 값의 상한을 설정합니다. 기본값은
20
입니다. - include_field_distinct_count: 각 컬럼에 대해 고유 값의 수를 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - include_field_distinct_value_frequencies: 고유 값의 빈도를 프로파일링할지 여부를 결정합니다. 기본값은
False
입니다. - include_field_histogram: 숫자 필드에 대해 히스토그램을 프로파일링할지 여부를 결정합니다. 기본값은
False
입니다. - include_field_max_value: 숫자 컬럼의 최대 값을 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - include_field_mean_value: 숫자 컬럼의 평균 값을 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - include_field_median_value: 숫자 컬럼의 중앙 값을 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - include_field_min_value: 숫자 컬럼의 최소 값을 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - include_field_null_count: 각 컬럼의 null 값의 수를 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - include_field_quantiles: 숫자 컬럼의 분위수를 프로파일링할지 여부를 결정합니다. 기본값은
False
입니다. - include_field_sample_values: 모든 컬럼의 샘플 값을 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - include_field_stddev_value: 숫자 컬럼의 표준 편차를 프로파일링할지 여부를 결정합니다. 기본값은
True
입니다. - limit: 프로파일링할 문서의 최대 수를 설정합니다. 기본값은 모든 문서를 프로파일링합니다.
- max_number_of_fields_to_profile: 각 테이블에 대해 프로파일링할 최대 컬럼 수를 설정합니다. 기본값은 모든 컬럼을 프로파일링합니다.
- max_workers: 프로파일링에 사용할 작업자 스레드의 수를 설정합니다. 기본값은
60
입니다. - offset: 프로파일링할 문서의 오프셋을 설정합니다. 기본값은 오프셋을 사용하지 않습니다.
- partition_datetime: 지정된 경우, 이 날짜와 일치하는 파티션만 프로파일링합니다. 지정되지 않은 경우, 최신 파티션을 프로파일링합니다. BigQuery에서만 지원됩니다.
- partition_profiling_enabled: 파티션된 테이블을 프로파일링할지 여부를 결정합니다. BigQuery에서만 지원됩니다. 기본값은
True
입니다. - profile_external_tables: 외부 테이블을 프로파일링할지 여부를 결정합니다. Snowflake와 Redshift에서만 지원됩니다. 기본값은
False
입니다. - profile_if_updated_since_days: 지정된 일수 이내에 업데이트된 경우에만 테이블을 프로파일링합니다. null로 설정된 경우, 테이블의 마지막 수정 시간에 대한 제한이 없습니다. Snowflake와 BigQuery에서만 지원됩니다.
- profile_table_level_only: 테이블 수준에서만 프로파일링을 수행할지, 컬럼 수준의 프로파일링도 포함할지 여부를 결정합니다. 기본값은
False
입니다. - profile_table_row_count_estimate_only: 행 수에 대한 대략적인 쿼리를 사용할지 여부를 결정합니다. 이는 훨씬 빠르지만 약간 덜 정확합니다. Postgres와 MySQL에서만 지원됩니다. 기본값은
False
입니다. - profile_table_row_limit: 행 수가 지정된 수보다 적은 경우에만 테이블을 프로파일링합니다. null로 설정된 경우, 프로파일링할 테이블의 행 수에 제한이 없습니다. Snowflake와 BigQuery에서만 지원됩니다. 기본값은
5000000
입니다. - profile_table_size_limit: 테이블의 크기가 지정된 GB보다 작은 경우에만 테이블을 프로파일링합니다. null로 설정된 경우, 프로파일링할 테이블의 크기에 제한이 없습니다. Snowflake와 BigQuery에서만 지원됩니다. 기본값은
5
입니다. - query_combiner_enabled: 이 기능은 아직 실험적이며 문제가 발생하면 비활성화할 수 있습니다. SQL 쿼리를 동적으로 결합하여 발행되는 총 쿼리 수를 줄이고 프로파일링 속도를 높입니다. 기본값은
True
입니다. - report_dropped_profiles: 프로파일링되지 않은 데이터셋이나 데이터셋 컬럼을 보고할지 여부를 결정합니다. 디버깅 목적으로 설정합니다. 기본값은
False
입니다. - sample_size: 테이블에서 컬럼 수준의 프로파일링을 위해 샘플링할 행 수를 설정합니다.
use_sampling
이True
로 설정된 경우에만 적용됩니다. 기본값은10000
입니다.
Hey there! Make sure your message includes the following information if relevant, so we can help more effectively!
- Are you using UI or CLI for ingestion?
- Which DataHub version are you using? (e.g. 0.12.0)
- What data source(s) are you integrating with DataHub? (e.g. BigQuery)
<@U06TM7M40RK> Can you help with the questions in this thread?
Please continue to tag RunLLM (e.g <@U06TM7M40RK>) to have it continue generating responses! We’re experimenting with a new AI assistant for questions in the <#CUMUWQU66|> channel to help you track down helpful resources more quickly. Keep in mind that responses may not always be spot-on; feel free to ask it follow-up questions and don’t forget to provide its responses a or so other folks in the Community know if you’re still looking for help on the topic and to help us improve the assistant!
I’m here to help with questions about DataHub! Could you please provide more details or rephrase your question to include the following information?
- Are you using the UI or CLI for ingestion?
- Which DataHub version are you using? (e.g., 0.12.0)?
- What data source(s) are you integrating with DataHub? (e.g., BigQuery, Snowflake, PowerBI, etc.)?
This information will help me provide you with the most relevant and accurate guidance. 0 button 0 button Hint: Mention @runllm in the thread for followups.
- turn_off_expensive_profiling_metrics: 비용이 많이 드는 프로파일링을 비활성화할지 여부를 결정합니다. 이는 분위수, 고유 값 빈도, 히스토그램 및 샘플 값을 프로파일링하지 않습니다. 또한 프로파일링할 최대 필드 수를 10으로 제한합니다. 기본값은
False
입니다. - use_sampling: 테이블의 샘플을 기반으로 컬럼 수준의 통계를 프로파일링할지 여부를 결정합니다. BigQuery와 Snowflake에서만 지원됩니다. 기본값은
True
입니다.
이 설정 옵션들은 Snowflake 데이터 소스의 프로파일링을 세밀하게 조정할 수 있도록 도와줍니다. 더 자세한 정보가 필요하시면 알려주세요.
Sources:
- <Snowflake | DataHub Config Details> 0 button 0 button Hint: Mention @runllm in the thread for followups.