tiffon · January 21, 2020 13:25 · tiffon · Nov 26, 2018 · tiffon · Jan 1, 2019
diff --git a/Trace_Analysis_00_filter_groupby.py b/Trace_Analysis_00_filter_groupby.py
 """
 Note: There are several variations to do the same thing (see # or). The idea
 is to choose the best (one or so) of the variations and implement that. I.E.
 these are different designs possibilities for the API.
 """

 """
 Filtering
 """

 #
 # find spans with a "db.statement" tag
 #
 db_spans = spans[model.tags.some[model.kvp.key == 'db.statement']]

 # or
 db_spans = spans[model.tags.some[model.key == 'db.statement']]

 # or
 db_spans = spans[model.tags.some['db.statement']]

 # or
 db_spans = spans[model.tags.some('db.statement')]

 #
 # filter db_spans to spans over 1 second in duration
 #
 slow_db_spans = db_spans[model.duration >= 1 * time.SECOND]

 #
 # conjuntions
 #
 slow_db_spans = spans[model.tags.some['db.statement'] & (model.duration >= 1 * time.SECOND)]


 #
 # filter to spans with process.service == 'customer'
 #
 customer_spans = spans[model.service == 'customer']

 #
 # filter to spans with process.service == 'driver' or process.service == 'route'
 #
 driver_route_spans = spans[(model.service == 'driver') | (model.service == 'route')]
 # or
 driver_route_spans = spans[model.service.isin(['driver', 'route'])]

 #
 # spans with an error tag
 #
 error_spans = spans[model.tags.some['error']]

 #
 # spans with the tag "error" == True
 #
 error_spans = spans[model.tags.some[(model.key == 'error') & (model.value == True)]]

 # or - this approach is less flexible than the above
 error_spans = spans[model.tags.some(key='error', value=True)]

 #
 # spans with the tag "error" == True or "error" == "true"
 #
 error_spans = spans[model.tags.some[(model.key == 'error') & ((model.value == True) | (model.value == 'true'))]]

 #
 # trace has an error
 #
 # save the predicate for reuse
 is_error_span = model.tags.some[(model.key == 'error') & ((model.value == True) | (model.value == 'true'))]
 trace_has_error = trace.spans.some[is_error_span]
 # type is bool
 isinstance(trace_has_error, bool)


 """
 Predicates can be saved and used later
 """

 is_error_span = model.tags.some[(model.key == 'error') & ((model.value == True) | (model.value == 'true'))]


 """
 grouping
 """

 #
 # group spans by their service
 #
 # => {'customer': [span, span], 'driver': [span]}
 spans.groupby(model.service)

 #
 # group spans by both service and operation
 #
 # => {('customer', 'greet'): [span, span], ('customer', 'bid-farewell'): [span]}
 spans.groupby([model.service, model.operation])

 #
 # group spans by service then operation
 #
 # => {'customer': {'greet': [span, span], 'bid-farewell': [span]}}
 spans.groupby(model.service, model.operation)

 #
 # group by presence of the span tag 'pod'
 #
 # => {True: [span, span], False: [span]}
 spans.groupby(model.tags.some['pod'])

 #
 # group by presence of both span tags 'db.statement' and 'db.result_count'
 #
 # => {(True, True): [span, span], (True, False): [span], ...}
 spans.groupby([model.tags.some['db.statement'], model.tags.some['db.result_count']])

 #
 # group by value of span tag 'as'
 #
 # => {None: [span, span], 'thrift': [span], 'http': [span]}
 spans.groupby(model.tags['as'])

 #
 # group by the value of the process host tag
 #
 spans.groupby(model.process.tags['host'])

 #
 # group by data-center via a transform on process.tags.host
 # assuming host has the form "someid-datacenter", e.g. "ab12c-us-east1"
 #
 get_dc = lambda host: re.sub('^[^-]+-', '', host)
 by_dc = spans.groupby(model.process.tags['host'].transform(get_dc))

 #
 # group by parent service
 #
 spans.groupby(model.parent.service)

 #
 # group by has a child with an error
 #
 spans.groupby(model.children.some[is_error_span])

 #
 # group by has a ancestor has an error
 #
 spans.groupby(model.ancestors.some[is_error_span])
	"""
	Note: There are several variations to do the same thing (see # or). The idea
	is to choose the best (one or so) of the variations and implement that. I.E.
	these are different designs possibilities for the API.
	"""

	"""
	Filtering
	"""

	#
	# find spans with a "db.statement" tag
	#
	db_spans = spans[model.tags.some[model.kvp.key == 'db.statement']]

	# or
	db_spans = spans[model.tags.some[model.key == 'db.statement']]

	# or
	db_spans = spans[model.tags.some['db.statement']]

	# or
	db_spans = spans[model.tags.some('db.statement')]

	#
	# filter db_spans to spans over 1 second in duration
	#
	slow_db_spans = db_spans[model.duration >= 1 * time.SECOND]

	#
	# conjuntions
	#
	slow_db_spans = spans[model.tags.some['db.statement'] & (model.duration >= 1 * time.SECOND)]


	#
	# filter to spans with process.service == 'customer'
	#
	customer_spans = spans[model.service == 'customer']

	#
	# filter to spans with process.service == 'driver' or process.service == 'route'
	#
	driver_route_spans = spans[(model.service == 'driver') \| (model.service == 'route')]
	# or
	driver_route_spans = spans[model.service.isin(['driver', 'route'])]

	#
	# spans with an error tag
	#
	error_spans = spans[model.tags.some['error']]

	#
	# spans with the tag "error" == True
	#
	error_spans = spans[model.tags.some[(model.key == 'error') & (model.value == True)]]

	# or - this approach is less flexible than the above
	error_spans = spans[model.tags.some(key='error', value=True)]

	#
	# spans with the tag "error" == True or "error" == "true"
	#
	error_spans = spans[model.tags.some[(model.key == 'error') & ((model.value == True) \| (model.value == 'true'))]]

	#
	# trace has an error
	#
	# save the predicate for reuse
	is_error_span = model.tags.some[(model.key == 'error') & ((model.value == True) \| (model.value == 'true'))]
	trace_has_error = trace.spans.some[is_error_span]
	# type is bool
	isinstance(trace_has_error, bool)


	"""
	Predicates can be saved and used later
	"""

	is_error_span = model.tags.some[(model.key == 'error') & ((model.value == True) \| (model.value == 'true'))]


	"""
	grouping
	"""

	#
	# group spans by their service
	#
	# => {'customer': [span, span], 'driver': [span]}
	spans.groupby(model.service)

	#
	# group spans by both service and operation
	#
	# => {('customer', 'greet'): [span, span], ('customer', 'bid-farewell'): [span]}
	spans.groupby([model.service, model.operation])

	#
	# group spans by service then operation
	#
	# => {'customer': {'greet': [span, span], 'bid-farewell': [span]}}
	spans.groupby(model.service, model.operation)

	#
	# group by presence of the span tag 'pod'
	#
	# => {True: [span, span], False: [span]}
	spans.groupby(model.tags.some['pod'])

	#
	# group by presence of both span tags 'db.statement' and 'db.result_count'
	#
	# => {(True, True): [span, span], (True, False): [span], ...}
	spans.groupby([model.tags.some['db.statement'], model.tags.some['db.result_count']])

	#
	# group by value of span tag 'as'
	#
	# => {None: [span, span], 'thrift': [span], 'http': [span]}
	spans.groupby(model.tags['as'])

	#
	# group by the value of the process host tag
	#
	spans.groupby(model.process.tags['host'])

	#
	# group by data-center via a transform on process.tags.host
	# assuming host has the form "someid-datacenter", e.g. "ab12c-us-east1"
	#
	get_dc = lambda host: re.sub('^[^-]+-', '', host)
	by_dc = spans.groupby(model.process.tags['host'].transform(get_dc))

	#
	# group by parent service
	#
	spans.groupby(model.parent.service)

	#
	# group by has a child with an error
	#
	spans.groupby(model.children.some[is_error_span])

	#
	# group by has a ancestor has an error
	#
	spans.groupby(model.ancestors.some[is_error_span])